标签 持续集成 下的文章

折腾Jenkins

Buildbot是产品线C应用项目中采用的唯一持续集成工具,一直以来用得还不错。但前些日子部门负责过程改善的同事找到我,说今年部门计划统一各个项目组所使用的Continuous Integration工具,Buildbot有些小众,没有入大家的法眼,部门期望使用的是Jenkins(即原来的Hudson)。既然组织有统一规划,那我自然积极支持。但首先要做的就是评估Jenkins是否能满足我们的需求,并且看看从Buildbot迁移到Jenkins的难度及工作量有多少。这不,今天下午就一直在折腾Jenkins。

一、安装Jenkins
Jenkins(前身Hudson)很流行,在各大主流操作系统平台上都有很好的支持,其安装甚是方便,特别是在各主流的Linux发行版平台上,均可使用OS自带的应用包管理工具进行自动安装;当然你也可以直接在官方下载war包。我采用的就是第二种方式,旨在获得更高的Jenkins版本,不过让我失望的是在Ubuntu 9.04(Java version: 1.6.0_20)上,最新的1.451和1.450版本均启动失败,这也是我之前不太喜欢使用Java实现的工具的一个原因之一 – 总是容易出现莫名其妙的异常,而且较难找到原因,也很难fix,除非自己重新构建war包。在这方面像Python等动态脚本语言就有先天优势,一旦出现问题,我可以直接在源码中定位和修改。

1.441版本的Jenkins让我看到了希望,至少启动是没有问题的。启动是通过下面命令行完成的:
java -jar jenkins.war –logfile=~/.jenkins/jenkins.log –daemon –httpPort=9333

如果你是使用包管理工具自动安装的Jenkins,那么Jenkins将被作为服务安装到指定位置(比如:/etc/default/jenkins),并且在/etc/init.d下面创建了jenkins的init脚本。这样当主机重启后,Jenkins会被自动拉起。但如果你和我一样是手工下载的war包,那你就需要自己来保证Jenkins服务一直可用了。这里的一个简单的方法就是编写一个Jenkins运行的监控脚本,如果发现Jenkins未启动,就启动它,Jenkins_monitor.sh示例如下:

#! /bin/bash

result=`ps -ef|sed '/grep/d'|grep jenkins.war`

if [[ x$result == x ]];
then
        cd '/home/tonybai/proj/jenkins' && java -jar jenkins.war –logfile=/home/tonybai/.jenkins/jenkins.log –daemon –httpPort=9333
else
        echo "jenkins is alive!"
fi

最后将Jenkins_monitor.sh加到crontab中即可:
$> crontab -l
# m h  dom mon dow   command
* * * * * bash /home/tonybai/proj/script/jenkins_monitor.sh

二、配置Jenkins
Jenkins的配置是完全通过Web页面完成的,这点全面超越了Buildbot。关于Jenkins如何配置,网上的资料可谓是汗牛充栋,这里就不再重复了,这里只说说配置过程中遇到的一些问题以及解决方法。

我们的产品需要进行多平台上并行持续集成,也就是说当trunk上有代码commit后,Jenkins应该发现代码变更,并同时通知多个不同Slave平台进行集成。之前的Buildbot是通过手工在不同平台上部署Buildslave满足这一需求的,Jenkins也是支持Master/Slave模式的,但Jenkins比Buildbot更加平易近人的地方在于Slave节点无需手工到主机上安装,只需通过在Web页面上添加Slave Node即可(实际上Jenkins在Slave Node上启动了一个Java程序"slave.jar")。

在配置Slave node时,我遇到了第一个问题:一个x86 Solaris平台的Slave node配置完后始终无法Online,而之前配置相同的一个x86 linux Slave节点却可以顺利Online。

直到查看Log后,我才弄清楚真正的缘由。下面是Jenkins Master通过ssh连接Slave Node的Log节选:

SSH connection reports a garbage before a command execution.
Check your .bashrc, .profile, and so on to make sure it is quiet.
The received junk text is as follows:
######################
  Application Server
    On Solaris 10
######################

hudson.AbortException
        at hudson.plugins.sshslaves.SSHLauncher.verifyNoHeaderJunk(SSHLauncher.java:364)
        … …
[02/14/12 14:03:23] [SSH] Connection closed.

原来问题出在我在Slave Node节点的.bashrc中增加的那段个性化签名。Jenkins无法识别这段签名,从而抛出异常,导致Connect失败。注释掉这段签名后就可以看到Slave Node的状态为Online了。

另外一个问题是有关Mail的配置的。公司的Mail Server年前做了一次升级,将安全连接方式由原先的SSL改为了STARTTLS,而Jenkins只支持SSL。没有mail通知的CI Server显然是不合格的。为此,我再次想起了当时Buildbot的Mail发送解决方案- 使用Stunnel。原先的Stunnel配置因公司Mail Server升级而失效了,所以需要对Stunnel做一些配置调整:

这个配置调整着实花了我一些时间,也走了一些弯路,最后在反复阅读Stunnel配置手册后,才发现让Stunnel在Client Mode下支持STARTTLS,只需要做一项配置修改,即增加"protocol = smtp"这一行,示例如下:
/* /etc/stunnel/stunnel.conf */

client = yes
… …

[smtp]
accept  = host_ip : listen_port
connect = mailserver_ip : mailserver_port
protocol = smtp

这样Jenkins就可以用普通smtp连接方式(非SSL)通过stunnel与公司Mail Server进行数据交互了。

三、创建Job并执行集成
有了Node(没有也行,在Master上也可以执行集成),我们就可以创建Job进行集成了。Jenkins Job的创建和配置也比较简单,这里同样不赘述了。我们的项目有了buildc这样的工具作为铺垫后,其构建脚本就变得相当简单了。在Job的execute shell中填写几行命令即可:

buildc config-make
make check-style
make compile-tests
make run-tests
make

对于setup工程来说,由于buildc的存在,我们也可以通过执行buildc pack build完成构建,甚至是上传安装包到指定位置。所以在折腾Jenkins的同时,我也在考虑是否可以利用Jenkins搭建一套安装包制作和发布系统呢!

四、其他
Jenkins还有一点要优于Buildbot,那就是Jenkins拥有Buildbot所没有的"立即构建(Build Now)"功能(经提醒,buildbot也支持force build功能,只不过需要在master配置中这样来配置:c['status'].append(html.WebStatus(http_port=8011, allowForce=True))),对于我来说,这个功能在调试CI脚本时尤其有用。另外,市面上有关Jenkins的书籍并不多,《Jenkins: The Definitive Guide》算是目前市面上讲解Jenkins最为系统和全面的一本了,目前它也在我的"在读"列表中。

从目前的实验结果来看,Jenkins替代Buildbot是完全可行的,而且迁移难度和工作量也没有太多。由于接触Jenkins时间尚短,其强大的功能还需待日后进一步挖掘。

解决一个IP路由选择问题

大学时曾旁听过计算机专业的专业课-"计算机网络"(我非科班出身,只能偷偷旁听),现在还能清晰地记得当初他们使用的教材是高教社影印版的《计算机网络——自顶向下方法与Internet特色》。不过记忆中课程的内容却渐渐模糊了。有些当时并没有深刻地理解的概念,现在依旧没理解,因为平时少有涉及。

上周在搭建CI环境时遇到了两个服务器(均安装的是RHEL 5.5 OS)之间网络不通的问题。这两个服务器分处于两个不同的局域网网段:服务器A IP为10.10.12.xxx,服务器B的IP为10.10.13.yyy,从A到B无法Ping通,但B到A是没有问题的。这时恰巧一位系统工程师同事到开发大厅办事,我就顺便请他帮忙解决这个问题。

不知道是因为有急事呢,还是我没有说清楚问题所在,他在A主机上先是删除了若干路由,然后又在/etc/rc.local中添加了一条路由:"route add -net 10.10.0.0 gw 10.10.12.1 netmask 255.255.0.0",生效后,A主机居然可以Ping通主机B了,问题解决了,他也就匆忙离开了。

我也本以为这样就可以了,但不久我就发现A主机无法连上DNS Server了,要知道在路由表被修改之前是可以的。无奈之下,我只能自己尝试去搞定了。首先先注释掉rc.local中的那条新增静态路由,然后reboot系统,让系统恢复到之前的路由表配置(通过route命令增删的路由都是临时路由)。

接下来,就是查找各种资料,重新认知一下IP路由选择的原理。经典的《TCP/IP协议-卷1》一直躺在家中的书柜里,手头上只有《Linux系统管理技术手册(Linux Administration Handbook)》这本书。不过还好,这本书也足够经典,里面对TCP/IP网络的讲解更实际,也更具可操作性。

说到路由,我们不得不回顾一下IP地址。IP地址不是孤立的,或者说一个孤立的IP地址是信息不完整的。我们无法通过一个孤立的IP地址来确定下什么。我们需要将它与子网掩码结合一起来使用。掩码就是用来指示IP地址中网络地址部分和主机地址之间的边界的。举例来说:如果一台主机配置的IP地址为10.10.12.105,子网掩码为255.255.255.0,那么这台主机所在的物理网络的地址就是(10.10.12.105 & 255.255.255.0) = 10.10.12.0,而最后那个字节用于主机地址分配,主机编号可以从1到254(0是网络地址,255是该网络的广播地址)。这台主机与网内的其他主机可以直接通信,无需经由任何中间设备的转发,它网内的兄弟主机编号可以是104,106…等等。

好了,我们有了网络地址的概念了,一切就会变得好办多了。接下来我们看一下A主机当前路由表(通过route或netstat -rn命令),看看它为何无法连到主机B。

-bash-3.2$ route
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.12.0      *               255.255.252.0   U     0      0        0 eth0
169.254.0.0     *               255.255.0.0     U     0      0        0 eth0
default         10.10.12.1      0.0.0.0         UG    0      0        0 eth0

这里有三条路由,与问题相关的是第一条和第三条。而169.254.0.0是zeroconf产生的IP地址,称为Link Local Addresses,Mac OS X, Windows和比较新的Linux都支持这类地址。其作用是无需配置即可联网,比DHCP还简单,不需要服务器,只要把电脑设备间用网线连接在一起即可。这条路由与本文无关,故这里一笔带过。

关于route命令结果中各个列的含义这里就不细说了。我们来看一下当尝试从A主机向B主机发送数据包时会发生什么呢?我们假设B主机的IP地址为10.10.13.222。当A主机构造好IP包后,会到路由表中查询路由。简单地说就是逐条路由匹配,直到匹配成功后,将IP包发往对应路由记录的Destinaion网络中去。如果没有匹配的路由,则将该包发往默认(default)路由对应的gateway设备。

在这个例子中,我们会用10.10.13.222与各条路由记录匹配。如果10.10.13.222 & Genmask == Destination,我们就说匹配成功。显然通过计算,10.10.13.222和第一条路由记录就匹配成功了:10.10.13.222 & 255.255.252.0 = 10.10.12.1,那目的IP地址为10.10.13.222的IP包就会被发往网内。但是IP层的下面的链路层和物理层会发现10.10.13.222根本不属于本网络,发送失败。这就是为何从A主机无法ping通B主机的原因。再细致看看,原来是第一条路由的Genmask配置错了,本来应该配置为255.255.255.0,但是却配置成了255.255.252.0,这无意中为该物理网络做了"扩容"。修正后的路由表如下:

-bash-3.2$ route
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.12.0      *               255.255.255.0   U     0      0        0 eth0
169.254.0.0     *               255.255.0.0     U     0      0        0 eth0
default         10.10.12.1      0.0.0.0         UG    0      0        0 eth0

修正后,我们再来走一遍上述的流程。为到10.10.13.222的IP包匹配路由,经计算发现无可成功匹配的记录,则该IP包采用默认路由,也就是第三条路由,通过eth0网口转到10.10.12.1这个gateway设备上了。后者会将该IP包转发到10.10.13.0这个网络中去,这就实现了位于两个不同网络中的两台主机A与B之间的互联互通了。

另外要说的是上面这些路由数据是从哪里来的呢?在Redhat Linux中,这些数据是在网卡初始化时由系统读取网卡配置文件而得来的。在Redhat中,网卡配置文件位于:/etc/systconfig/network-scripts下,文件名是ifcfg-eth0,…。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 从 0 开始构建 Agent Harness Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com
这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats