利用ZooKeeper服务实现分布式系统的Leader选举

每次与Java组的同事们坐下来谈技术、谈理想、谈人生时,Java组的同事总会向我们投来羡慕的眼光:卧槽!又是自己开发的工具,太NB了。这时C程序 员们的脸上就会洋溢出自豪的笑容,然后内心骂道:谁让我们没有现成的呢。另一个空间里的某些“无C不欢”们或者某些“C Guru”们会骂道:靠,有了也不用,自己写!

有时候,C程序员真的有一种下意识:不情愿使用其他语言开发的工具、框架或服务,且比其他程序员更爱“重新发明轮子”(有利有弊)。也许这是某种 骨子里的自负在搞怪;另外一个极端:今天和我聊天的一个经验丰富的C程序员还在忧虑:如果离职是否有公司会要他:(。

其实这个时代的C程序员一直活得挺纠结^_^。

这个世界,软硬件发展日新月异,越来越多的后端程序用Java等其他语言实现。Java高级选手在这个世界上也甚是吃香,这个你看看各大招聘网站 就知道了。再听听坊间“BAT”三巨头给出的高高在上的offer价格,也可以看出Java程序员是多么的有“钱途”和受欢迎了。当然拿好offer的前提是你的Java底子不薄。

其实无论用什么编程语言,成为牛人后,钱途也都是杠杠的。

没有什么好的开场白,于是有了上面一些“胡言乱语”。我们言归正传。

本文是一篇初级技术博文。讲的是如何使用ZooKeeper C API通过ZooKeeper的服务实现分布式系统的Leader选举。当然这一试验是为了尝试解决我们自己的分布式系统在集中配置数据分发这一环节上的 一个“固疾”。还好我还不那么纠结,也没有重新实现ZooKeeper的冲动,于是我就用了ZooKeeper这一Java实现的成熟的分布式 系统的服务框架。

* 搭建ZooKeeper服务环境

    – 下载官方stable release版本 – ZooKeeper3.4.5。解压后,将$ZooKeeper_INSTALL_PATH/bin加入到PATH变量中(其中ZooKeeper_INSTALL_PATH为解压后ZooKeeper-3.4.5目录的绝对路径)。

    – 试验环境下,最简单的ZooKeeper用法就是使用单机版。
      进入到$ZooKeeper_INSTALL_PATH/conf下,将zoo_sample.cfg改名为zoo.cfg,即可作为单机版ZooKeeper的配置文件。当然你也可以像我一样随意修改修改:

      # The number of milliseconds of each tick
   tickTime=2000
   # The number of ticks that the initial
   # synchronization phase can take
   initLimit=5
   # The number of ticks that can pass between
   # sending a request and getting an acknowledgement
   syncLimit=2

   dataDir=/home/tonybai/proj/myZooKeeper
   # the port at which the clients will connect
   clientPort=2181

       
      如果你要体验多机版ZooKeeper服务,那你还要继续动动手脚,以双机版为例,假设有两个ZooKeeper节点(10.0.0.13和10.0.0.14):

      10.0.0.13上的ZooKeeper节点1的配置文件如下:

     # The number of milliseconds of each tick
   tickTime=2000
   # The number of ticks that the initial
   # synchronization phase can take
   initLimit=5
   # The number of ticks that can pass between
   # sending a request and getting an acknowledgement
   syncLimit=2

   dataDir=/home/tonybai/proj/myZooKeeper
   # the port at which the clients will connect
   clientPort=2181

   server.1=10.0.0.13:2888:3888 
   server.2=10.0.0.14:2888:3888

     10.0.0.14上的ZooKeeper节点2的配置文件如下:

     # The number of milliseconds of each tick
   tickTime=2000
   # The number of ticks that the initial
   # synchronization phase can take
   initLimit=5
   # The number of ticks that can pass between
   # sending a request and getting an acknowledgement
   syncLimit=2

   dataDir=/home/tonybai/proj/myZooKeeper
   # the port at which the clients will connect
   clientPort=2181

   server.1=10.0.0.13:2888:3888
   server.2=10.0.0.14:2888:3888

      别忘了在每个节点的dataDir下分别创建一个myid文件:
      在10.0.0.13节点1上执行:
      
     $> echo 1 > myid

      在10.0.0.14节点2上执行:
     
   $> echo 2 > myid

      启动ZooKeeper执行:
      $> zkServer.sh start

      模拟一个客户端连到ZooKeeper服务上:
      $> zkCli.sh

      成功链接后,你将进入一个命令行交互界面:
       [zk: 10.0.0.13:2181(CONNECTED) 1] help
    ZooKeeper -server host:port cmd args
    connect host:port
    get path [watch]
    ls path [watch]
    set path data [version]
    rmr path
    delquota [-n|-b] path 

        … …

* 选主原理

   ZooKeeper在选主过程中提供的服务就好比一栋名为"/election"小屋,小屋只有一个门,各节点只能通过这个门逐个进入。每个节点进入后, 都会被分配唯一编号(member-n),编号n自小到大递增,节点编号最小的自封为Leader,其他节点只能做跟班的(follower) – 这年头还是小的吃香:原配干不过小三儿,小三儿干不过小四儿,不是么^_^!)。
   每当一个节点离开,ZooKeeper都会通知屋内的所有节点,屋内节点收到通知后再次判断一下自己是否是屋内剩余节点中编号最小的节点,如果是,则自封为Leader,否则为Follower。

   再用稍正式的语言重述一遍:

   各个子节点同时在某个ZooKeeper数据路径/election下建立"ZOO_SEQUENCE|ZOO_EPHEMERAL"节点 – member,且各个节点监视(Watch) /election路径的子路径的变更事件。ZooKeeper的sequence节点特性保证节点创建时会被从小到大加上编号。同时节点的 ephemeral特性保证一旦子节点宕机或异常停掉,其对应的member节点会被ZooKeeper自动删除,而其他节点会收到该变更通知,重新判定 自己是leader还是follower以及谁才是真正的leader。

* 示例代码

关于ZooKeeper的C API的使用资料甚少,但这里就偏偏要用C API举例。

C API的安装方法:进入$ZOOKEEPER_INSTALL_PATH/src/c下面,configure->make->make install即可。

ZooKeeper的C API分为同步与异步两种模式,这里简单起见用的都是同步机制。代码不多,索性全贴出来。在这里能checkout到全部代码。

/* election.c */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#include "zookeeper.h"

static int
is_leader(zhandle_t* zkhandle, char *myid);

static void
get_node_name(const char *buf, char *node);

struct watch_func_para_t {
    zhandle_t *zkhandle;
    char node[64];
};

void
election_children_watcher(zhandle_t* zh, int type, int state,
                      const char* path, void* watcherCtx)
{
    int ret = 0;

    struct watch_func_para_t* para= (struct watch_func_para_t*)watcherCtx;

    struct String_vector strings;
    struct Stat stat;

    /* 重新监听 */
    ret = zoo_wget_children2(para->zkhandle, "/election", election_children_watcher,
                             watcherCtx, &strings, &stat);
    if (ret) {
        fprintf(stderr, "child: zoo_wget_children2 error [%d]\n", ret);
        exit(EXIT_FAILURE);
    }

    /* 判断主从 */
    if (is_leader(para->zkhandle, para->node))
        printf("This is [%s], i am a leader\n", para->node);
    else
        printf("This is [%s], i am a follower\n", para->node);

    return;
}

void def_election_watcher(zhandle_t* zh, int type, int state,
        const char* path, void* watcherCtx)
{
    printf("Something happened.\n");
    printf("type: %d\n", type);
    printf("state: %d\n", state);
    printf("path: %s\n", path);
    printf("watcherCtx: %s\n", (char *)watcherCtx);
}

int
main(int argc, const char *argv[])
{

    const char* host = "10.0.0.13:2181";
    zhandle_t* zkhandle;
    int timeout = 5000;
    char buf[512] = {0};
    char node[512] = {0};

    zoo_set_debug_level(ZOO_LOG_LEVEL_WARN);
    zkhandle = zookeeper_init(host, def_election_watcher, timeout,
                              0, "Zookeeper examples: election", 0);
    if (zkhandle == NULL) {
        fprintf(stderr, "Connecting to zookeeper servers error…\n");
        exit(EXIT_FAILURE);
    }

    /* 在/election下创建member节点 */
    int ret = zoo_create(zkhandle,
                        "/election/member",
                        "hello",
                        5,
                        &ZOO_OPEN_ACL_UNSAFE,  /* a completely open ACL */
                        ZOO_SEQUENCE|ZOO_EPHEMERAL,
                        buf,
                        sizeof(buf)-1);
    if (ret) {
        fprintf(stderr, "zoo_create error [%d]\n", ret);
        exit(EXIT_FAILURE);
    }

    get_node_name(buf, node);
    /* 判断当前是否是Leader节点 */
    if (is_leader(zkhandle, node)) {
        printf("This is [%s], i am a leader\n", node);
    } else {
        printf("This is [%s], i am a follower\n", node);
    }

    struct Stat stat;
    struct String_vector strings;
    struct watch_func_para_t para;
    memset(&para, 0, sizeof(para));
    para.zkhandle = zkhandle;
    strcpy(para.node, node);

    /* 监视/election的所有子节点事件 */
    ret = zoo_wget_children2(zkhandle, "/election", election_children_watcher, &para, &strings, &stat);
    if (ret) {
        fprintf(stderr, "zoo_wget_children2 error [%d]\n", ret);
        exit(EXIT_FAILURE);
    }

    /* just wait for experiments*/
    sleep(10000);

    zookeeper_close(zkhandle);
}

static int
is_leader( zhandle_t* zkhandle, char *myid)
{
    int ret = 0;
    int flag = 1;

    struct String_vector strings;
    ret = zoo_get_children(zkhandle, "/election", 0, &strings);
    if (ret) {
        fprintf(stderr, "Error %d for %s\n", ret, "get_children");
        exit(EXIT_FAILURE);
    }

    /* 计数 */
    for (int i = 0;  i < strings.count; i++) {
        if (strcmp(myid, strings.data[i]) > 0) {
            flag = 0;
            break;
        }
    }

    return flag;
}

static void
get_node_name(const char *buf, char *node)
{
    const char *p = buf;
    int i;
    for (i = strlen(buf) – 1; i >= 0; i–) {
        if (*(p + i) == '/') {
            break;
        }
    }

    strcpy(node, p + i + 1);
    return;
}

编译这个代码:
$> gcc -g -std=gnu99 -o election election.c -DTHREADED -I/usr/local/include/zookeeper -lzookeeper_mt -lpthread

验证时,我们在不同窗口启动三次election程序:

窗口1, election启动:

$> election
Something happened.
type: -1
state: 3
path:
watcherCtx: Zookeeper examples: election
This is [member0000000001], i am a leader

窗口2,election启动:

$> election
Something happened.
type: -1
state: 3
path:
watcherCtx: Zookeeper examples: election
This is [member0000000002], i am a follower

此时窗口1中的election也会收到/election的字节点增加事件,并给出响应:

This is [member0000000001], i am a leader

同理当窗口3中的election启动时,窗口1和2中的election都能收到变动通知,并给予响应。

我们现在停掉窗口1中的election,大约5s后,我们在窗口2中看到:

This is [member0000000002], i am a leader

在窗口3中看到:

This is [member0000000003], i am a follower

可以看出窗口2和3中的election程序又做了一次自我选举。结果窗口2中的election由于节点编号最小而被选为Leader。

我的工作原则

想了若干种开场白,但无论哪种都不能令我满意,于是索性就这么开场了。

工作了若干年,不经意间就形成了自己的行事和决策风格,这里权且称之为工作原则吧。这些原则引导我制定工作目标、实施过程改善、作出方案决策、选择和培养团队人员以及进行自我改进等。我也相信这些原则是主观的、具有时间和环境局限性的。也许若干年后,随着我的角色和工作的变化,许多原则将 不再适用,但这不妨碍我现在将其总结和分享出来。

* 对工作原则的认知

原则就像定理一样,是你在决策以及行事前要参考的东西,它将对你的思维施加强大的因果影响,指引你一步一步的得到最终的结果。个人工作原则的行成 是一个逐渐认知、逐渐丰富的过程,与个人角色的影响力多寡有一定关系。最初入职场,你所能影响的范围较小,无非就是你所负责的那个一小块区域,更 多是与事儿打交道,似乎没有什么可以决策和选择的。你要做的就是按时保质地完成一个接着一个的任务。随着影响圈的扩大,你的行为将受到更多因素的 影响,你的思维计算开始变得复杂,你的潜意识告诉你这么做是正确的。久而久之,这种思维和行事方式就固化到你的大脑中了,形成了你的工作原则,并 且原则随着你的工作年头的增加而逐渐丰富。

工作原则是个体的,主观的,也可能是错的,也许只适合你的角色,但不一定适合他人。如果两个人的工作原则一模一样,那估计是电视剧中的情形,纯属 巧合。

有原则的工作观的行成时间因人而异,有的人初入职场就有,有的人要花上个几年时间,我就属于后者,缓慢型。

有了原则,还要会使用原则,这或多或少与情商有关。有时候,折中或妥协不一定是最坏的结果。

* 做事的原则

   【要结果,也要过程

    现代企业更强调结果导向,业绩为先。在组织与个人的绩效考核中,结果确是极其重要的指标因素,这些都无可厚非。但我坚持的原则是要结果,也要过程。个人不 是临时工,不是完成一个任务后就要离职;团队也不是打一杖就要解散的,因此每打一杖,我们既要胜利,也要打得一个比一个漂亮 – 投入少,损伤少,战果卓著,我们的人民子弟兵不就是这么发展壮大起来的么 – 鸟枪换炮了。一成不变的过程损失的是个人以及团队未来 的竞争力。因此对于软件开发团队而言,要实施积极的过程改善,改善是融于任务的过程中的。没有代码评审的,整个 Reviewboard玩玩;打包构建不规范的,弄个mavenbuildc试试;测试还靠人肉的,堆个自动化的测试框架(比如 robotframework)试试。过程的改善带来的是整体能力的提升,这就是我们除了结果之外所想要得到的。

   【从痛点出发

    这是一条寻觅过程改善点的原则,很多人也都能意识到过程的一成不变,但却始终找不到下手改进的切入点;
    这也是一条组织内开启微创新的原则。在“创新”一词被用烂的今天,真正能找到组织内创新之路起点的人却少之又少。

    什么是痛点(pain point)?顾名思义,引发痛苦的点。放在组织以及过程范围内来说就是让员工或组织在内部活动过程中产生别扭、不爽以及痛苦的点。比如:每次搭建一个产 品模拟环境都要半天时间、每次都要两人/天才能完成新版本的接收测试、TMD谁提交的代码让工程编译不过去了。

    我的原则是努力去发现痛点,深入理解痛点,并尝试缓解或解决痛点。

    发现痛点的一个方法就是降低自己的忍受力,这样痛点才能得以放大。否则中国人都是极具耐性且勤奋的,一点点挫折或别扭之处或浪费时间的事情都不会被列为痛点 的。

    解决痛点的一个前提是对其深入的理解。有的痛点,我们感受到的只是其外在的表象,其深层次的东西是需要深入地理解和挖掘的。只有挖掘到深层次,才能对症下 药,药到病除。

    客户的痛点,往往是一种很好的引导产品演化或服务提升的途径。比如:到海底捞吃饭要排队,显然大家都不喜欢排队。海底捞的团队发现了客户们的这个痛点,向 排队客户提供了超出客户预想的服务。之后的事情大家都有所耳闻了:这一痛点的解决居然变成了海底捞的“招牌“。

   【事先谋划布局

    我们知道要下好围棋,谋划布局是必不可少的。最佳布局是取得胜利的基石。要完成最佳的布局,需要棋手有对全盘的整体把握能力以及准确的时机判断能力。做事如下棋,尤其是在要完成一些重要且复杂的事情时,务必事先针对现状谋划出最佳的布局。

    在组织内部,资源和时间永远是有限的。要去完成一件不紧急但重要事情的时候,往往不能立即得到全部的资源以及充足的时间,甚至得不到其他人的认可(因意 识、眼光等种种原因)。一些自下而上发起的改善措施,甚至是得不到任何资源的。只能充分评估已有的资源和时间,以设定好的节奏稳步前进,取得一些阶段性的 成果。当时机成熟时,公开成果以获得领导的首肯以及各种资源来完成后面的计划。我在组织内部推行知识管理时就是这样布局的,而这个局花了两年多时间才基本 完成。

    大局大作,小局小作。关键是以敏锐的眼光准确的判断形势,以确定是否该落下下一颗棋子以及落在何处。
   
   【不违背工作节奏规律
   
    人不是机器,无法始终绷紧神经开全挂埋头苦干。人工作效率的高低和产出成果多寡符合一定的规律曲线,大致分为三个阶段:充电期、发光期与衰减期。

    不同年龄段的人的充电期、发光期、衰减期的长短不同,这个很好理解。年轻人发光期相对长,充电和衰减相对短。随着年龄的增加,发光期缩短,充电和衰减期变长。

    每个人要对属于自己的那个工作节奏做好充分认知。让发光期更有效率(每天高效利用8小时),让充电期集聚更多能量(身体上的、精神上的和知识技能上的),调整衰减期的工作内容。

    下班后尽量做与工作无关的事情(例如做自己的开源项目、融入家庭生活),努力追求工作与生活的平衡,是有利于提升充电效率的。

    长久违背这一自然规律,将使得节奏变得紊乱,而紊乱后的代价还是蛮高的。

    组织由个体组成,组织也因此呈现出一定的工作节奏,我们在考虑组织的工作负荷时不要忘了这一点。

   【时刻抱有危机感

    危机感让人警醒,并保持持续向前的动力和热情。

    时刻问自己:如果你离开当前公司,是否能瞬即得到其他同等或更好的公司的青睐。这种危机感让你会主动追随技术潮流的发展方向,武装自己,提升自己,让自己的受欢迎度维持在高位。

    组织也是一样,没有永恒不落的公司,没有永恒不落的行业。即便是百年老店IBM,也是在沙场中几经沉浮。危机感让组织持续寻找新的业务方向、积累新鲜的技术食粮,为将来残酷的竞争做着准备。

    【通过提升平台能力,提升整体能力
   
     与逐个培训和激励个体提升相比,组织整体能力的提升是更具性价比的。人是最复杂的动物,基因的万千变化使得自然界的人类个体差异十分巨大,这表现在智商、 兴趣、理想、热情等多个方面。用内容一致的课程对员工进行所谓的培训,收到的效果自然千差万别,整体提升有限。

     但如果将个体所在的平台的能力进行提升,就好比将传统的人工生产线换成机器人流水线,员工们要做的只是改变一下自己的行为,新的行为甚至比之前的操作更为简单,我们就可以得到整体的能力提升。

     这种方法的划算之处还在于即便在人员流失的情况下,新进的人员在这套平台或规程下段时间内也能达到相同的生产力,即便新人在各个方面都远逊色于离开的老员工。

* 用人的原则

     【但求最适合,不求最优秀
      
      理想情况下,所有组织都希望能招到世界上最优秀的员工 – 能力最强,效率最高。但事实上在IT行业里,世界范围内集聚牛人的公司也就那么几家,绝大多数公司的员工都是很平凡的,我所在的公司更是如此。中国的IT 牛人多聚集在北上广等一线城市,那里的IT环境好,待遇优越。但没有牛人不代表无法完成工作。在现有的可用资源下,我要找的是最适合的人 – 他们在技术方面不要求十分优秀,也许只是可以胜任,但却与其工作角色十分匹配。甚至于有些角色还真的不适合牛人去做,或大才小用,或热情耐心不足(要知道 牛人一般都很自负的,对某些工作不屑一顾,自然也不会投入热情和耐心)。
      
     【充分授权,服务到位

      实战是考验一个人的最好工具。通过实战,人员能力还将能得到最快的提升。因此从人员能力培养的角度上去看,我更愿意给予下属充分的授权,让他们放手去做。当然伴以检查与辅导,尽量减少他们走弯路的可能。

      在授权前,还要充分考虑到他们即将遇到的各种困难。并事先协调资源,给他们提供周到的服务,以帮助他们顺利完成工作任务。这些服务有可能是一些基础设施平台,也有可能是一些预研储备的技术方案。就好比武侠小说中的妙计锦囊,在关键时候可以帮助下属度过难关。  

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言精进之路1 Go语言精进之路2 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats