程序员 - Tony Bai

buildc 0.1.4版本发布

四月 12, 2012

年后buildc开始逐渐在产品线的项目里应用了，随之而来的是大家反馈的各种意见和bug。尤其是bug，我都会很认真地应对，也会及时发布相应的版本修复这些bug。buildc 0.1.4版本就是一个bugfix版本，其修复的bug源于今天上午的一次持续集成的失败。

上午收到Jenkins发送的一个"build failed"的mail，一个安装包项目的CI job执行失败了，于是到Jenkins web页面上检查错误原因。这个Job会在两个slave node上执行集成，一个在x86 linux上，一个在x86 solaris上。这次失败是因为x86 linux上的一个配置问题导致的，页面显示x86 solaris那个节点的集成是成功的。我无意间查看了x86 solaris节点集成过程的命令行输出，发现如下内容：

Config Make.rules OK!

Failed to execute cmd [make CMODE=64-bit], errno = [512]

Finished: SUCCESS

显然，构建脚本并未真正成功，但Jenkins却认为这次集成是OK的，这是怎么回事呢？难道是Jenkins有问题？为了弄清原因，我登到那个Solaris节点上，进入到Jenkins slave工作目录下的workspace中，在对应的Job目录下，手工执行了集成脚本，执行结束后，通过"echo $?"查看命令的返回值，居然是"0"，也就是说执行结果是成功的，这怎么可能？明明代码中输出是"errno= [512]"。

为了验证问题，我编写了一个测试程序以验证代码执行是否正确：

# testerrno.py

#! /usr/bin/env python

import commands

import sys

def execute(cmd):

o = commands.getstatusoutput(cmd)

if o[0] != 0:

print "Failed to execute cmd [%s], errno = [%d]” % (cmd, o[0])

sys.exit(o[0])

return o

if __name__ == '__main__':

execute('ls -l foo')

由于当前目录下并未有foo文件，因此预期testerrno.py的执行结果应该是失败的，执行过程如下：

$> testerrno.py

Failed to execute cmd [ls -l foo], errno = [512]

$> echo $?

从结果中可以看到，居然执行结果返回的真的是0。我将上述代码中的sys.exit(o[0])直接改为了sys.exit(512)，我要看看究竟是怎么回事，结果执行结果又出乎我的意料：

$> testerrno.py

Failed to execute cmd [ls -l foo], errno = [512]

$> echo $?

居然还是0。突然脑海中冒出一个思路：难道是Shell不支持512这么大的errno？于是将512改为23，再试：

$> testerrno.py

Failed to execute cmd [ls -l foo], errno = [512]

$> echo $?

执行后得到的结果为：23。看来我的思路是正确的，那Shell支持的最大errno值究竟是多少呢？经验告诉我很可能是255。于是乎我又分别将返回值硬编码为255和256并执行之，结果当返回值为255时，echo $?的输出为255；当返回值为256时，echo $?的返回值居然变成了0，看来就是这个问题了。关于为何Python获取到的ls -l foo的执行结果为512(commands.getstatusoutput的返回结果)，我没有深究，但如果手工在命令行上执行'ls -l foo'，得到的返回值实际上是2，而不是512。另外我的Shell版本为：GNU bash, version 3.00.16。

如何修复buildc的这个问题呢？我的方法是让command.execute在执行命令出错时返回同一个指定的错误码，目前为errors.py中shell_cmd_exec_failed值。但command.execute会打印commands.getstatusoutput返回结果中的真实错误码值，两不耽误。

于是就有了这buildc 0.1.4版本，该版本在Python 2.4.3和Python 2.6.2下都测试OK。

关于编译阶段符号多重定义的问题

四月 11, 2012

2 条评论

印象中关于编译以及链接的问题早已是老生常谈了。但今天又遇到了一个这样的问题，这里还总想提及一下下^_^。

这次要说的问题依旧发生在使用lcut进行单元测试的过程中。一位同事在编译使用了mock函数的测试用例代码时出现了"multiple definition of 'xxx'“的错误。这里简单模拟其场景如下：

/* testall.c */

/* mock lib function */

int lib_function(…) {

…

return (int)LCUT_MOCK_RETV();

}

int function_to_be_tested(…) {

…

ret = lib_function(…);

…

}

void test_case(lcut_tc_t *tc, void *data) {

ret = function_to_be_tested(…);

LCUT_INT_EQUAL(tc, 0, ret);

}

lib_function是静态共享库中的一个接口，但这里被mock了。不过由于一些其他test_case使用了静态共享库(.a)的其他接口，因此在编译时程序链接了这个静态共享库。但结果编译器却报错：lib_function被多重定义了。

经过各种排查(编译器命令行中的目标文件与库链接顺序是否正确等)，我们发现编译器报错的原因居然是忘记mock几个与lib_function同属一库模块(xx.o)的接口。

这里就不拐弯抹角了。由于漏掉了一些本该mock的接口，因此程序在编译testall.c时有许多unresolved的符号需要到静态共享库中去查找。这里又涉及到了符号resolve的过程，而更为重要的一点是要弄清楚编译器是如何对待静态共享库中那个拥有testall.o中未resolved的符号的库模块的(一个静态库.a文件实际上是由诸多库模块.o文件组合而成的)。我们来看看下面例子。

一个libcommon.a的组成如下：

libcommon.a

– foo.o

– function: foo1

– function: foo2

– bar.o

– function: bar1

– function: bar2

我们来看一下一个调用了foo1函数且链接了libcommon.a的可执行文件(a.out，对应的源文件main.c)中都有哪些已定义的符号：

$ nm a.out

…

080483d4 T foo1

080483b4 T main

080483e2 T foo2

…

通过nm输出的结果可以看到，最终的可执行程序中居然包含了程序并未调用的函数foo2的定义。似乎一切都清晰了：编译器在libcommon.a的foo.o中找到了unresolved的符号foo1，但编译器并非只是将foo1的定义放入最终的可执行文件中，而是将foo.o从libcommon.a中取出，并将其与main.o放在一处同等对待，编译器会扫描foo.o中所有的符号，并确保其中的符号都是具有定义的，这样才能保证最终的可执行程序中所有的符号都是具有定义的。

现在我们可以回过头来回答本文开始处所遇到的那个"多重定义"的问题了。因为testall.c中存在未resolved的符号，即那些被漏掉的未mock的库接口，因此编译器找到了静态共享库中定义了这些库接口的库模块(某个.o文件)，但编译器并非只是处理这些符号，和上面的例子一样，编译器还会扫描这个库模块文件中的所有符号以确保所有符号都有定义。而就在这个过程中编译器发现了其中有的符号(比如lib_function)的定义与testall.c中mock的同名接口(lib_function)定义相冲突，从而才作出了错误提示。

之前写过一篇文章《从mock malloc说起》，其中有关于编译过程中符号resolve的详细说明，有兴趣的朋友不妨看看。