2006年九月月 发布的文章

不完备库接口带来的隐患

最近自己曾经辛苦耕耘过的两个项目同时上线,相关问题也就逐渐暴露出来。工作这两年多时间以后,使我有这样感觉:’测试永远都是不完备的’,有些问题只能在商用过程中发现,呵呵,明确一点啊我不是搞测试的:)

在解决问题过程中的感悟往往是最深刻的,解决问题的过程往往真的像是警察在侦破案件,往往一点点罪犯留下的蛛丝马迹就会让神探们找到线索,并迅速破案。

最近两天一直在一个bug上煎熬着,终于于昨天发现蛛丝马迹并醒悟过来,很有意思的一个bug,和大家一起来分享一下。

这周三我们组的一个同事在现网商用运行的系统上发现我们的程序出现了一个core,对于unix后台服务程序来说,出core是一件很严重的事情,而这个core也直接导致了进程的死锁,消息的积压。

通过gdb调试core发现,问题出在遍历一棵放在共享内存中的B+树,从B+树中取出的地址是一个无效地址,所以当使用memcpy拷贝这个地址上的数据时core出现了。

说到这不能不提及一些背景资料了,在开发这个项目的时候,我们在实现业务需求的时候发现需要部门B+树操作库提供一个完备的遍历接口,可是却发现已有的B+树接口并不提供遍历功能,这显然是库接口的不完备造成的,大家都知道树的遍历是一个特别常见的功能。我们决定对该库进行扩充,添加一个遍历接口;不过,我们在添加接口的时候发现,库内部提供一个叫get_next_key的内部接口,但是该接口的问题在于它返回的下一个key并不是总存储有效数据的。按我们的正常逻辑,如果我们提供一个get_next_key,如果遍历到最后一个有效节点后再继续遍历,则应该返回NOT_FOUND之类的返回值,而这个库中的get_next_key仍然给你返回一个空闲节点,而这个节点中的数据是随机值。了解到这种情况,考虑到时间原因,我定义了一个xx_get_next_key的外部接口,在这个接口实现中我仍然选择使用get_next_key来辅助工作,并且在xx_get_next_key的接口说明中解释到需要业务层控制调用xx_get_next_key的次数。

比如说如果目前B+树中有100个有效节点,那么我调用100次xx_get_next_key均会返回有效节点,如果再100次后继续调用该接口,返回的可能就是非有效数据了。

这样在业务层,我写下了如下代码:
int get_default_xx_info(…) {
 int total = 0;
 int i     = 0;
 xx_get_bptree_msgc(&total);

 for (i =0 ; i < total; i++) {
  调用xx_get_next_key遍历B+树;
 }
}

就是这样的代码在系统运行很长时间后出问题了,通过gdb跟踪到xx_get_next_key的内部实现中,最开始我怀疑是不是对以前的B+树操作库不熟悉,代码调用的不对,后经确认,xx_get_bptree_msgc的实现代码无误。而咋一眼看上去业务层的逻辑也没有问题亚。在查了一个下午之后,仍然没有结果。第二天继续,结合日志和GDB跟踪输出,发现这样的一个很奇怪的现象,而且在我们的分布式系统的两台机器上现象是一致的。

通过日志看出,在调用get_default_xx_info之前,日志打印出来当前B+树中有12610个有效数据节点;而通过GDB跟踪栈上信息,发现B+树中的有效节点是12609个。也就是说我们通过xx_get_bptree_msgc调用得到total值是12610个,而在多次调用xx_get_next_key的间隙时间里,B+树中的节点被其他进程删除了,前面我们提到过我们的B+树是进程间共享的。这样的话,xx_get_next_key使用的约束条件被破坏了,发生了多一次的调用,问题应该就在这。的确,在xx_get_next_key内部执行时是有写锁保证其他进程不会对B+树进行修改的,但是当xx_get_next_key结束一次执行,释放锁资源后,阻塞在该锁上的其他进程对B+树的操作很有可能就发生了,也就是说我们没有保证整个完整遍历过程的事务性。真相大白了。修改也容易了,但是由于库接口的不完备性,使得修改后的逻辑看起来也很别扭,业务层和底层库有交叉了。

'Manna' – An extremely attractive fiction

Our British English teacher Alex recommended a book called ‘Manna’ to us for its simple grammar and vocabulary. After reading it, we all agreed on that it was an extremely attractive fiction.

The author of ‘Manna’ is Marshall Brain, who is a writer, a well-known national speaker and a consultant in U.S. In his fiction, he tells us his point of view on robots’ coming out in near future. It seems to be a science fiction, maybe a political fiction, who knows, because almost any book could be associated with politics.

The following is the link of this fiction:
Manna by Marshall Brain

If you have your own options after reading the book, I am looking forward to talking with you about that.

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言精进之路1 Go语言精进之路2 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats