标签 Unix 下的文章

不完备库接口带来的隐患

最近自己曾经辛苦耕耘过的两个项目同时上线,相关问题也就逐渐暴露出来。工作这两年多时间以后,使我有这样感觉:’测试永远都是不完备的’,有些问题只能在商用过程中发现,呵呵,明确一点啊我不是搞测试的:)

在解决问题过程中的感悟往往是最深刻的,解决问题的过程往往真的像是警察在侦破案件,往往一点点罪犯留下的蛛丝马迹就会让神探们找到线索,并迅速破案。

最近两天一直在一个bug上煎熬着,终于于昨天发现蛛丝马迹并醒悟过来,很有意思的一个bug,和大家一起来分享一下。

这周三我们组的一个同事在现网商用运行的系统上发现我们的程序出现了一个core,对于unix后台服务程序来说,出core是一件很严重的事情,而这个core也直接导致了进程的死锁,消息的积压。

通过gdb调试core发现,问题出在遍历一棵放在共享内存中的B+树,从B+树中取出的地址是一个无效地址,所以当使用memcpy拷贝这个地址上的数据时core出现了。

说到这不能不提及一些背景资料了,在开发这个项目的时候,我们在实现业务需求的时候发现需要部门B+树操作库提供一个完备的遍历接口,可是却发现已有的B+树接口并不提供遍历功能,这显然是库接口的不完备造成的,大家都知道树的遍历是一个特别常见的功能。我们决定对该库进行扩充,添加一个遍历接口;不过,我们在添加接口的时候发现,库内部提供一个叫get_next_key的内部接口,但是该接口的问题在于它返回的下一个key并不是总存储有效数据的。按我们的正常逻辑,如果我们提供一个get_next_key,如果遍历到最后一个有效节点后再继续遍历,则应该返回NOT_FOUND之类的返回值,而这个库中的get_next_key仍然给你返回一个空闲节点,而这个节点中的数据是随机值。了解到这种情况,考虑到时间原因,我定义了一个xx_get_next_key的外部接口,在这个接口实现中我仍然选择使用get_next_key来辅助工作,并且在xx_get_next_key的接口说明中解释到需要业务层控制调用xx_get_next_key的次数。

比如说如果目前B+树中有100个有效节点,那么我调用100次xx_get_next_key均会返回有效节点,如果再100次后继续调用该接口,返回的可能就是非有效数据了。

这样在业务层,我写下了如下代码:
int get_default_xx_info(…) {
 int total = 0;
 int i     = 0;
 xx_get_bptree_msgc(&total);

 for (i =0 ; i < total; i++) {
  调用xx_get_next_key遍历B+树;
 }
}

就是这样的代码在系统运行很长时间后出问题了,通过gdb跟踪到xx_get_next_key的内部实现中,最开始我怀疑是不是对以前的B+树操作库不熟悉,代码调用的不对,后经确认,xx_get_bptree_msgc的实现代码无误。而咋一眼看上去业务层的逻辑也没有问题亚。在查了一个下午之后,仍然没有结果。第二天继续,结合日志和GDB跟踪输出,发现这样的一个很奇怪的现象,而且在我们的分布式系统的两台机器上现象是一致的。

通过日志看出,在调用get_default_xx_info之前,日志打印出来当前B+树中有12610个有效数据节点;而通过GDB跟踪栈上信息,发现B+树中的有效节点是12609个。也就是说我们通过xx_get_bptree_msgc调用得到total值是12610个,而在多次调用xx_get_next_key的间隙时间里,B+树中的节点被其他进程删除了,前面我们提到过我们的B+树是进程间共享的。这样的话,xx_get_next_key使用的约束条件被破坏了,发生了多一次的调用,问题应该就在这。的确,在xx_get_next_key内部执行时是有写锁保证其他进程不会对B+树进行修改的,但是当xx_get_next_key结束一次执行,释放锁资源后,阻塞在该锁上的其他进程对B+树的操作很有可能就发生了,也就是说我们没有保证整个完整遍历过程的事务性。真相大白了。修改也容易了,但是由于库接口的不完备性,使得修改后的逻辑看起来也很别扭,业务层和底层库有交叉了。

字符串拷贝密码

在近期的一次工作交接中,在我的代码中发现了很多’安全隐患’,主要是以’字符串拷贝’为主。这种安全漏洞在C编程中是较为常见的,防范起来也较为容易,这里我们就来一起探索一下’字符串拷贝’的’密码’。

在正常情况下,我们在考量目的缓冲区大小时都会以源缓冲区大小作为依据的,一般会适当的比源缓冲区多出一些空间,其中一种’居中’状况:即sizeof(dstbuf) = strlen(srcbuf) + 1。

当sizeof(dstbuf) > strlen(srcbuf) + 1时,使用strcpy, strncpy都不会出现问题(缓冲区溢出问题);
[Ex1.]
int main() {
        /*
         * 测试char *strcpy(char *s1, const char *s2);
         */
        char    dstbuf1[10];
        char    *srcbuf1 = "Hello";

        memset(dstbuf1, 0, sizeof(dstbuf1));
        strcpy(dstbuf1, srcbuf1);

        printf("%s\n", dstbuf1);        /* 输出结果:Hello */

        /*
         * 测试char *strncpy(char *s1, const char *s2, size_t n);
         */
        char    dstbuf2[10];
        char    *srcbuf2 = "Hello";

        memset(dstbuf2, 0, sizeof(dstbuf2));
        strncpy(dstbuf2, srcbuf2, sizeof(dstbuf2)-1);

        printf("%s\n", dstbuf2);        /* 输出结果:Hello */
}

当sizeof(dstbuf) < strlen(srcbuf) + 1时,当然这种情况就是异常情况,是否能很好的处理这样的异常情况恰恰体现了你的程序的健壮性好坏。我们分别讨论一下使用strcpy、strncpy和strlcpy在这种情况下出现的问题:

(1) 使用strcpy
使用strcpy会出现什么问题呢?strcpy会将srcbuf中的所有字符(直到并包括结尾0)拷贝到dstbuf中,即使sizeof(dstbuf)不够大。这样会导致dstbuf缓冲区溢出,看下面例子:

[Ex2.]
int main() {
        /*
         * 测试char *strcpy(char *s1, const char *s2);
         */
        char    dstbuf1[6];
        char    *srcbuf1 = "HelloWorld";

        memset(dstbuf1, 0, sizeof(dstbuf1));
        strcpy(dstbuf1, srcbuf1);

        printf("%s\n", dstbuf1);        /* 缓冲区溢出,输出结果:HelloWorld */
}
strcpy将’HelloWorld’拷贝到了dstbuf中,由于strcpy不检查目的缓冲区大小,所以即使目的缓冲区dstbuf大小不够,strcpy也继续拷贝,直至碰到源缓冲区的结尾0,strcpy同样不会放过源缓冲区的结尾0,该结尾0也被拷贝到目的缓冲区中,这样我们在输出dstbuf时,printf将结尾0之前的字符悉数打印出来。

(2) 使用strncpy
使用strncpy会出现什么问题呢?如果你这样使用(一般都应该这样用)strncpy(dstbuf, srcbuf, sizeof(dstbuf) – 1),则不会出现问题,最后的sizeof(dstbuf)-1就是为了在dstbuf的结尾留出’结尾0′的空间。但是如果你这样用:strncpy(dstbuf, srcbuf, n), n > sizeof(dstbuf) – 1, 则由于目前srcbuf中的数量已经大于dstbuf的长度,一旦n也大于sizeof(dstbuf)-1,那么dstbuf的最终结果就是其没有结尾0,你printf(dstbuf)会得到结尾为乱码的字符串。看下面例子:
[Ex3.]
int main() {
        /*
         * 测试char *strncpy(char *s1, const char *s2, size_t n);
         */
        char    dstbuf2[6];
        char    *srcbuf2 = "HelloWorld";

        memset(dstbuf2, 0, sizeof(dstbuf2));
        strncpy(dstbuf2, srcbuf2, sizeof(dstbuf2));

        printf("%s\n", dstbuf2);        /* dstbuf2的结尾0被覆盖,输出结果:HelloW鯰 */
}

(3) 使用strlcpy
strlcpy会出现什么情况呢?首先strlcpy并不是标准C库函数,不过在大部分Unix/Linux平台下都提供这个接口,它会在适当的时候截断srcbuf并保证dstbuf最后结尾0不被覆盖,保证缓冲区不溢出,也就是说使用strlcpy是安全的,但是并不一定是你期望的结果。

[Ex4.]
int main() {
        /*
         * 测试size_t strlcpy(char *dst, const char *src, size_t dstsize);
         */
        char    dstbuf3[6];
        char    *srcbuf3 = "HelloWorld";

        memset(dstbuf3, 0, sizeof(dstbuf3));
        strncpy(dstbuf3, srcbuf3, sizeof(dstbuf3));
 
       /*
        * strlcpy截断srcbuf, 将srcbuf的前sizeof(dstbuf3)-1个字符拷贝到dstbuf3中,
        * 并在dstbuf3的结尾处添加结尾0,输出结果:Hello
        */
        printf("%s\n", dstbuf3);       
}

通过上面的几个例子的讲解,相信你已经能够找到’字符串拷贝’的’密码’了,拥有这一密码你的程序将会变得更加健壮。^_^

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats