标签 Debug 下的文章

又遇字节序问题

今天上午处理了一个线上产品的故障。分析来分析去,最后定位问题还是出在字节序转换的环节上。

其实测试组早在产品上线前就曾报告了这个问题,但是对应的开发人员并未对该问题进行深入地分析,而是有些草率地将该问题归结为客户端模拟器的实现不符合标准。因为这位同事比较资深,所以当时我也没有给予足够关注。

产品今天凌晨上线,9点左右业务量开始增大,这个问题立即就被我们在现场的运维人员发现,还好我们的系统是集群式的,运维同事及时的将线上有问题的版本停掉,用其他服务器支撑起了全部业务,躲过一劫。

我们还是回到这个问题上来。经验告诉我们:严重的问题往往都是由极其简单的错误导致的。这次也不例外!问题的直接原因就是:多调用了一次htonl。的确就是这么简单,但如果继续深入下去,我们还能得到一些收获。

当产品运行在x86服务器上,这个问题就会暴露出来,但是在Sun Sparc服务器上,该产品运行良好。我们分析后的结论是:这是由于在两种体系结构上htonl的实现不同而导致的。

我们先来做个试验,看下面的代码和执行结果:

/* testhtonl.c */
#include "stdio.h"
#include "arpa/inet.h"

int main() {
    unsigned int a = 0×12345678;
    unsigned int b = htonl(a);

    printf("0x%x\n", b);
    printf("0x%x\n", htonl(b));
   
    return 0;
}

将上面代码分别在x86和Sparc上编译运行。在x86上(ubuntu 10.04 Gcc 4.4.3 x86)运行的结果如下:
0×78563412
0×12345678

而在Sparc上(Solaris 10 for Sparc, Gcc 3.4.6)运行的结果如下:
0×12345678
0×12345678

由此我们可以看出,htonl这个接口并不总等价于字节序转换。在Sparc这种Big-endian体系结构的平台上,htonl相当于直接将参数值返回;而在x86这样的little-endian体系结构平台上,htonl则是等价于一个reverse_byte_order接口,每次调用都会把输入参数的byte order倒转后的结果返回。

还回到我们的那个问题中:多调了一次htonl在Sparc平台上没有什么影响;但是在x86平台上,我们得到了相反字节序的结果,导致故障的出现。

这不是我们第一次遇到字节序问题了,不过却是第一次在线上产品中遇到,上一次是在开发过程中遇到的。这次发生的问题并不仅仅是技术上的问题,更多的是在工作的严谨性和工作态度上出现问题了。对我来说,这是一个很值得吸取的教训。

模拟器陷阱

暑去清凉来,一场大雨让燥热一去不复返了,这让身体舒服了许多。本周四晚有一次产品升级操作,按惯例每次升级前的都会对产品做一次针对性的回归测试,这次也不例外,不过临近下班时测试组爆出一个莫名奇妙的问题。

测试人员在BUG说明中写到:产品在只运行某个流程A的情况是正常的,但是当流程A和流程B一起运行时,就会出XX异常情况。作为开发人员遇到类似的问题第一反映多为:这怎么可能呢?这个产品已经经过N轮测试并且早前已在某个省份上线运行了近两个月,如果有此潜在的BUG应该早就暴露出来了才对。及时找到测试人员沟通,测试人员很轻松的就复现出了该BUG,眼见为实!离升级时间点已经不多了,赶紧解决吧。

使用GDB在我认定的关键代码路径上设置了断点,对测试环境下的某进程进行调试,不过无论如何发消息,代码始终没有走到该断点,这让我疑惑不已。负责维护这段代码的开发人员恰参加培训回来,用她擅长的通过调试方法-“加打印语句”又进行了一次调试,发现一些端倪,消息并未按照我们预期的流程走,问题被缩小到消息包中的一个关键字段上,通过打印发现这一字段的值与预期的值不同。我的第一反映:是否有内存污染问题,如果真有这样的问题那就严重了,一直到此时我的怀疑点也一直在产品本身上。

这时测试人员在屏幕上的抓包结果引起了我们的注意:消息包中这个字段的值与设置的不符。通过进一步在产品中的打印结果也印证了这一点。难道是模拟器的问题?记忆中模拟器已经用了一年多了,这个问题之前怎么没有暴露出来呢。我们立即换了一个其他的模拟器进行了测试,结果:流程正常。看来就是模拟器的问题了。

据测试人员说以前未暴露出该问题很可能是因为之前的测试要么只测试A流程,或要么只测试B流程,很少A和B流程一起并行测试,所以这个模拟器陷阱就没有被发现。模拟器在A和B两个流程的共同作用下出现了内存污染的bug,,将A流程中的协议包中的一个重要字段设置错了,导致产品在处理该流程消息时未得出预期结果。

这次的“模拟器陷阱”问题起码暴露出两个问题:
1、缺少对新实现的模拟器正确性的完备测试;
2、测试人员在用例设计上还有提高的余地,应避免只有单一场景的用例了。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言精进之路1 Go语言精进之路2 商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats