Unix - Tony Bai

慎用线程取消

本周二，我们产品在某省的一个节点应用运行时出现了“死锁”情况，由于监控得力，我们在“死锁”后一分钟内就发现了这个情况，并及时重启了这个节点应用。由于是集群式系统，一个节点的故障对整个系统业务的运行几乎没造成什么影响。不过，这确是一个潜在的隐患。

经过对系统当时运行日志的分析，我们将问题锁定在“线程取消”这个机制的使用上。在“生产者-消费者”实现思路这篇文章中，我曾经提到过我们目前采用的一种通知机制的实现。消费者进程的主线程创建一个子线程，后者一般挂起在条件变量上等待生产者侧的唤醒。一般情况下，这种机制运行都很良好，问题出就出在消费者进程要退出的时候。

这个机制的实现也是逐渐“改”过来的。最初发现消费者进程退出时子线程长时间无法被唤醒导致无法及时退出，主线程因为要Join子线程，所以也阻塞在Join上，两个线程都挂起了，进程也就无法退出，导致后续业务逻辑上会出现一些问题。

之前开发人员在解决这个问题上采用了“线程取消”机制，在主线程Join子线程前调用pthread_cancel取消了子线程。但由于对线程取消机制理解的不透彻，导致子线程在pthread_cond_wait这个"cancellation point"（man cancellation）上退出。在Sun官方文档中提到在pthread_cond_wait这个取消点退出线程时，线程仍然持有与条件变量关联的那把互斥锁，这样就会导致其他进程在上锁时挂起在互斥锁上。但由于我们在代码中使用了不可移植的死锁恢复机制，这个问题也就不那么明显，偶尔出现（锁状态不一致很可能会导致死锁恢复机制失效），就这个偶尔出现导致了上述问题。

与另外一个产品线的同事做了一下内部沟通，发现他们那边的产品已经做了改善（或许是我们没有经常性同步库代码导致代码出现不一致了^_^）。最初他们通过调用pthread_cleanup_push注册取消点清理程序来完成mutex的unlock，该问题得到了暂时解决。但是子线程在其内部其他取消点的退出也带来的一些麻烦，比如open日志文件时。为了控制子线程在合适的取消点退出，他们采用了Disable Cancel State的线程设置，并在关键路径上使用“enable cancel -> pthread_testcancel -> disable cancel”来设置子线程退出的窗口。

另外为了子线程能在主线程Cancel它的时候有机会被唤醒，主线程在cancel调用后，使用pthread_cond_broadcast给子线程提供了一次机会。当然这也让阻塞在同一个条件变量上的其他线程被“假唤醒”，但这种情况是可以被忍受的。

在很多讲解多线程的书籍中都不建议使用cancel机制，这里也建议慎用。直到目前也许还有一些例外情况我们还没能考虑周全呢。

HelloWorld.s

二月 28, 2010

2 条评论

都说汇编不易学习和使用，的确不假。自己自大学以来也曾多次尝试学习汇编，甚至大学时还有相应课时，但是自己对汇编依旧是浅尝辄止。工作后也少有使用，对汇编的认识也就停留在基础层面。汇编的学习与对计算机系统的理解是密不可分的。工作这些年也算是一直浸淫于系统层面，经过多本底层相关书籍的教诲以及工作中的实践，对计算机系统的理解就自然而然加深了。昨天下载了一本名为：“Professional Assembly Language(中文名：汇编语言程序设计)” 的电子书，目的是想了解一下C内联汇编（Inline Assmebly）。花了半个小时读后，居然感觉轻松自如，和自己大脑中的知识融会贯通起来。发现这本书在卓越网还有“剩本”，也就抓紧买了下来，下周到货。

本书使用linux和AT&T汇编语法，正合我的胃口。以下是根据书中例子改出来的一段汇编版HelloWorld.s：

# HelloWorld.s
# as -o HelloWorld.o HelloWorld.s
# ld -o HelloWorld HelloWorld.o

.section .data
output:
.ascii "hello world\n"

.section .text
.globl _start
_start:
        nop
        movl $output, %ecx
        movl $4, %eax   # the index of sys call 'write'
        movl $1, %ebx   # file descriptor
        movl $12, %edx # length of the string
        int $0×80

        movl $1, %eax   # the index of sys call 'exit'
        movl $0, %ebx
        int $0×80

在调试上面代码时有两个注意事项要考虑：
1、调用write时，%edx务必赋值，否则将无法正确输出；
2、在Ubuntu 9.04下，如果结尾不调用exit，执行程序后会有'段错误'，目前依然不得其解，通过GDB调测后猜测是未作收尾处理，处理器继续取EIP所指地址的指令内容，执行出错。

将这段代码拿到Solaris10 for x86上执行，无法输出“hello world”，并伴有'段错误'，目前尚不得其解。

让HelloWorld.s作为再次尝试熟悉汇编的一个起点吧^_^。