Go语言数据竞争检测与数据竞争模式
本文永久链接 – https://tonybai.com/2022/06/21/data-race-detection-and-pattern-in-go
uber,就是那个早早退出中国打车市场的优步,是Go语言早期接纳者,也是Go技术栈的“重度用户”。uber内部的Go代码仓库有5000w+行Go代码,有2100个Go实现的独立服务,这样的Go应用规模在世界范围内估计也是Top3了吧。
uber不仅用Go,还经常输出它们使用Go的经验与教训,uber工程博客就是这些高质量Go文章的载体,这些文章都值得想“深造”的gopher们反复阅读和体会。
近期该博客发布了两篇有关Go并发数据竞争的文章,一篇为《Dynamic Data Race Detection in Go Code》,另一篇为《Data Race Patterns in Go》。这两篇文章也源于uber工程师发表在arxiv上的预印版论文《A Study of Real-World Data Races in Golang》。
感慨一下:不得不佩服国外工程师的这种“下得了厨房,还上得了厅堂”的研发能力,这也是我在团队中为大家树立的目标。
这里和大家过一下这两篇精简版的博客文章,希望我们都能有收获。
一. Go内置data race detector
我们知道:并发程序不好开发,更难于调试。并发是问题的滋生地,即便Go内置并发并提供了基于CSP并发模型的并发原语(goroutine、channel和select),实际证明,现实世界中,Go程序带来的并发问题并没有因此减少(手动允悲)。“没有银弹”再一次应验!
不过Go核心团队早已意识到了这一点,在Go 1.1版本中就为Go工具增加了race detector,通过在执行go工具命令时加入-race,该detector可以发现程序中因对同一变量的并发访问(至少一个访问是写操作)而引发潜在并发错误的地方。Go标准库也是引入race detector后的受益者。race detector曾帮助Go标准库检测出42个数据竞争问题。
race detector基于Google一个团队开发的工具Thread Sanitizer(TSan)(除了thread sanitizer,google还有一堆sanitizer,比如:AddressSanitizer, LeakSanitizer, MemorySanitizer等)。第一版TSan的实现发布于2009年,其使用的检测算法“源于”老牌工具Valgrind。出世后,TSan就帮助Chromium浏览器团队找出近200个潜在的并发问题,不过第一版TSan有一个最大的问题,那就是慢!。
因为有了成绩,开发团队决定重写TSan,于是就有了v2版本。与V1版本相比,v2版本有几个主要变化:
- 编译期注入代码(instrumentation);
- 重新实现运行时库,并内置到编译器(LLVM和GCC)中;
- 除了可以做数据竞争(data race)检测外,还可以检测死锁、加锁状态下的锁释放等问题;
- 与V1版本相比,v2版本性能提升约20倍;
- 支持Go语言。
那么TSan v2究竟是怎么工作的呢?我们继续往下看。
二. ThreadSanitizer v2版本工作原理
根据Thread Sanitizer wiki上对v2版算法的描述,Thread Sanitizer分为两部分:注入代码与运行时库。
1. 注入代码
第一部分是在编译阶段配合编译器在源码中注入代码。那么在什么位置注入什么代码呢?前面说过Thread Sanitizer会跟踪程序中的每次内存访问,因此TSan会在每次内存访问的地方注入代码,当然下面的情况除外:
- 肯定不会出现数据竞争的内存访问
比如:全局常量的读访问、函数中对已被证明不会逃逸到堆上的内存的访问;
- 冗余访问:写入某个内存位置之前发生的读操作
- … …
那么注入的什么代码呢?下面是一个在函数foo内写内存操作的例子:
我们看到对地址p的写操作前注入了__tsan_write4函数,函数foo的入口和出口分别注入了__tsan_func_entry和 __tsan_func_exit。而对于需要注入代码的内存读操作,注入代码则是__tsan_read4;原子内存操作使用__tsan_atomic进行注入…。
2. TSan运行时库
一旦在编译期注入代码完毕,构建出带有TSan的Go程序,那么在Go程序运行阶段,起到数据竞争检测作用的就是Tsan运行时库了。TSan是如何检测到有数据竞争的呢?
TSan的检测借助了一个称为Shadow Cell的概念。什么是Shadow Cell呢?一个Shadow Cell本身是一个8字节的内存单元,它代表一个对某个内存地址的读/写操作的事件,即每次对某内存块的写或读操作都会生成一个Shadow Cell。显然Shadow Cell作为内存读写事件的记录者,其本身存储了与此事件相关的信息,如下图:
我们看到,每个Shadow Cell记录了线程ID、时钟时间、操作访问内存的位置(偏移)和长度以及该内存访问事件的操作属性(是否是写操作)。针对每个应用程序的8字节内存,TSan都会对应有一组(N个)Shadow Cell,如下图:
N可以取2、4和8。N的取值直接影响TSan带来的开销以及data race检测的“精度”。
3. 检测算法
有了代码注入,也有了记录内存访问事件的Shadow Cell,那么TSan是通过什么逻辑检测data race的呢?我们结合Google大神Dmitry Vyukov在一次speak中举的例子来看一下检测算法是怎么运作的:
我们以N=8为例(即8个Shadow Cell用于跟踪和校验一个应用的8字节内存块),下面是初始情况,假设此时尚没有对该8字节应用内存块的读写操作:
现在,一个线程T1向该块内存的前两个字节进行了写操作,写操作会生成第一个Shadow Cell,如下图所示:
这里我们结合图中的Shadow Cell说说Pos字段。Pos字段描述的是写/读操作访问的8字节内存单元的起始偏移与长度,比如这里的0:2代表的就是起始字节为第一个字节,长度为2个字节。此时Shadow Cell窗口只有一个Shadow Cell,不存在race的可能。
接下来,一个线程T2又针对该块内存的后四个字节进行了一次读操作,读操作会生成第二个Shadow Cell,如下图所示:
此次读操作涉及的字节与第一个Shadow Cell没有交集,不存在data race的可能。
再接下来,一个线程T3针对该块内存的前四个字节进行了一次写操作,写操作会生成第三个Shadow Cell,如下图所示:
我们看到T1和T3两个线程对该内存块的访问有重叠区域,且T1为写操作,那么这种情况就有可能存在data race。而TSan的race检测算法本质上就是一个状态机,每当发生一次内存访问,都会走一遍状态机。状态机的逻辑也很简单,就是遍历这块内存对应的Shadow Cell窗口中的所有Cell,用最新的Cell与已存在的Cell逐一比对,如果存在race,则给出warning。
像这个例子中T1的write与T3的read区域重叠,如果Shallow Cell1的时钟E1没有happens-before Shadow Cell的时钟E3,那么就存在data race的情况。happens-before如何判定,我们可以从tsan的实现中找到端倪:
https://code.woboq.org/gcc/libsanitizer/tsan/tsan_rtl.cc.html
static inline bool HappensBefore(Shadow old, ThreadState *thr) {
return thr->clock.get(old.TidWithIgnore()) >= old.epoch();
}
在这个例子中,对应一个8字节应用内存的一组Shadow Cell的数量为N=8,但内存访问是高频事件,因此很快Shadow Cell窗口就会写满,那么新的Shadow Cell存储在哪里呢?在这种情况下,TSan算法会随机删除一个old Shadow Cell,并将新Shadow Cell写入。这也印证了前面提到的:N值的选取会在一定程度上影响到TSan的检测精度。
好了,初步了解了TSan v2的检测原理后,我们再回到uber的文章,看看uber是在何时部署race检测的。
三. 何时部署一个动态的Go数据竞争检测器
通过前面对TSan原理的简单描述我们也可以看出,-race带来的数据竞争检测对程序运行性能和开销的影响还是蛮大的。Go官方文档《Data Race Detector》一文中给出使用-race构建的Go程序相较于正常构建的Go程序,运行时其内存开销是后者的5-10倍,执行时间是2-20倍。但我们知道race detector只能在程序运行时才能实施数据竞争问题的检测。因此,Gopher在使用-race都会比较慎重,尤其是在生产环境中。 2013年,Dmitry Vyukov和Andrew Gerrand联合撰写的介绍Go race detector的文章“introducing the go race detector”中也直言:在生产环境一直开着race detector是不实际的。他们推荐两个使用race detector的时机:一个是在测试执行中开启race detector,尤其是集成测试和压力测试场景下;另外一个则是在生产环境下开启race detector,但具体操作是:仅在众多服务实例中保留一个带有race detector的服务实例,但有多少流量打到这个实例上,你自己看着办^_^。
那么,uber内部是怎么做的呢?前面提到过:uber内部有一个包含5000w+行代码的单一仓库,在这个仓库中有10w+的单元测试用例。uber在部署race detector的时机上遇到两个问题:
- 由于-race探测结果的不确定性,使得针对每个pr进行race detect的效果不好。
比如:某个pr存在数据竞争,但race detector执行时没有检测到;后来的没有data race的PR在执行race detect时可能会因前面的pr中的data race而被检测出问题,这就可能影响该pr的顺利合入,影响相关开发人员的效率。
同时,将已有的5000w+代码中的所有data race情况都找出来本身也是不可能的事情。
- race detector的开销会影响到SLA(我理解是uber内部的CI流水线也有时间上的SLA(给开发者的承诺),每个PR跑race detect,可能无法按时跑完),并且提升硬件成本
针对上述这两个问题,给出的部署策略是“事后检测”,即每隔一段时间,取出一版代码仓库的快照,然后在-race开启的情况下,把所有单元测试用例跑一遍。好吧,似乎没有什么新鲜玩意。很多公司可能都是这么做的。
发现data race问题,就发报告给相应开发者。这块uber工程师做了一些工作,通过data race检测结果信息找出最可能引入该bug的作者,并将报告发给他。
不过有一个数据值得大家参考:在没有data race检测的情况下,uber内部跑完所有单元测试的时间p95位数是25分钟,而在启用data race后,这个时间增加了4倍,约为100分钟。
uber工程师在2021年中旬实施的上述实验,在这一实验过程中,他们找到了产生data race的主要代码模式,后续他们可能会针对这些模式制作静态代码分析工具,以更早、更有效地帮助开发人员捕捉代码中的data race问题。接下来,我们就来看看这些代码模式。
四. 常见的数据竞争模式都有哪些
uber工程师总结了7类数据竞争模式,我们逐一看一下。
1. 闭包的“锅”
Go语言原生提供了对闭包(closure)的支持。在Go语言中,闭包就是函数字面值。闭包可以引用其包裹函数(surrounding function)中定义的变量。然后,这些变量在包裹函数和函数字面值之间共享,只要它们可以被访问,这些变量就会继续存在。
不过不知道大家是否意识到了Go闭包对其包裹函数中的变量的捕捉方式都是通过引用的方式。而不像C++等语言那样可以选择通过值方式(by value)还是引用方式(by reference)进行捕捉。引用的捕捉方式意味着一旦闭包在一个新的goroutine中执行,那么两个goroutine对被捕捉的变量的访问就很大可能形成数据竞争。“不巧的”的是在Go中闭包常被用来作为一个goroutine的执行函数。
uber文章中给出了三个与这种无差别的通过引用方式对变量的捕捉方式导致的数据竞争模式的例子:
- 例子1
这第一个例子中,每次循环都基于一个闭包函数创建一个新的goroutine,这些goroutine都捕捉了外面的循环变量job,这就在多个goroutine之间建立起对job的竞争态势。
- 例子2
例子2中闭包与变量声明作用域的结合共同造就了新goroutine中的err变量就是外部Foo函数的返回值err。这就会造成err值成为两个goroutine竞争的“焦点”。
- 例子3
例子3中,具名返回值变量result被作为新goroutine执行函数的闭包所捕获,导致了两个goroutine在result这个变量上产生数据竞争。
2. 切片的“锅”
切片是Go内置的复合数据类型,与传统数组相比,切片具备动态扩容的能力,并且在传递时传递的是“切片描述符”,开销小且固定,这让其在Go语言中得到了广泛的应用。但灵活的同时,切片也是Go语言中“挖坑”最多的数据类型之一,大家在使用切片时务必认真细致,稍不留神就可能犯错。
下面是一个在切片变量上形成数据竞争的例子:
从这份代码来看,开发人员虽然对被捕捉的切片变量myResults通过mutex做了同步,但在后面创建新goroutine时,在传入切片时却因没有使用mutex保护。不过例子代码似乎有问题,传入的myResults似乎没有额外的使用。
3. map的“锅”
map是Go另外一个最常用的内置复合数据类型, 对于go入学者而言,由map导致的问题可能仅次于切片。go map并非goroutine-safe的,go禁止对map变量的并发读写。但由于是内置hash表类型,map在go编程中得到了十分广泛的应用。
上面例子就是一个并发读写map的例子,不过与slice不同,go在map实现中内置了对并发读写的检测,即便不加入-race,一旦发现也会抛出panic。
4. 误传值惹的祸
Go推荐使用传值语义,因为它简化了逃逸分析,并使变量有更好的机会被分配到栈中,从而减少GC的压力。但有些类型是不能通过传值方式传递的,比如下面例子中的sync.Mutex:
sync.Mutex是一个零值可用的类型,我们无需做任何初始赋值即可使用Mutex实例。但Mutex类型有内部状态的:
通过传值方式会导致状态拷贝,失去了在多个goroutine间同步数据访问的作用,就像上面例子中的Mutex类型变量m那样。
5. 误用消息传递(channel)与共享内存
Go采用CSP的并发模型,而channel类型充当goroutine间的通信机制。虽然相对于共享内存,CSP并发模型更为高级,但从实际来看,在对CSP模型理解不到位的情况下,使用channel时也十分易错。
这个例子中的问题在于Start函数启动的goroutine可能阻塞在f.ch的send操作上。因为,一旦ctx cancel了,Wait就会退出,此时没有goroutine再在f.ch上阻塞读,这将导致Start函数启动的新goroutine可能阻塞在“f.ch <- 1”这一行上。
大家也可以看到,像这样的问题很细微,如果不细致分析,很难肉眼识别出来。
6. sync.WaitGroup误用导致data race问题
sync.WaitGroup是Go并发程序常用的用于等待一组goroutine退出的机制。它通过Add和Done方法实现内部计数的调整。而Wait方法用于等待,直到内部计数器为0才会返回。不过像下面例子中的对WaitGroup的误用会导致data race问题:
我们看到例子中的代码将wg.Add(1)放在了goroutine执行的函数中了,而没有像正确方法那样,将Add(1)放在goroutine创建启动之前,这就导致了对WaitGroup内部计数器形成了数据竞争,很可能因goroutine调度问题,是的Add(1)在未来得及调用,从而导致Wait提前返回。
下面这个例子则是由于defer函数在函数返回时的执行顺序问题,导致两个goroutine在locationErr这个变量上形成数据竞争:
main goroutine在判断locationErr是否为nil的时候,另一个goroutine中的doCleanup可能执行,也可能没有执行。
7. 并行的表驱动测试可能引发数据竞争
Go内置单测框架,并支持并行测试(testing.T.Parallel())。但如若使用并行测试,则极其容易导致数据竞争问题,原文没有给出例子,这个大家自行体会吧。
五. 小结
关于data race的代码模式,在uber发布这两篇文章之前,也有一些资料对数据竞争问题的代码模式进行了分类整理,比如下面两个资源,大家可以参照着看。
- 《Data Race Detector》- https://go.dev/doc/articles/race_detector
- 《ThreadSanitizer Popular Data Races》- https://github.com/google/sanitizers/wiki/ThreadSanitizerPopularDataRaces中的模式
在刚刚发布的Go 1.19beta1版本中提到,最新的-race升级到了TSan v3版本,race检测性能相对于上一版将提升1.5倍-2倍,内存开销减半,并且没有对goroutine的数量的上限限制。
注:Go要使用-race,则必须启用CGO。
// runtime/race.go
//go:nosplit
func raceinit() (gctx, pctx uintptr) {
// cgo is required to initialize libc, which is used by race runtime
if !iscgo {
throw("raceinit: race build must use cgo")
}
... ...
}
六. 参考资料
- “Finding races and memory errors with compiler instrumentation” – http://gcc.gnu.org/wiki/cauldron2012?action=AttachFile&do=get&target=kcc.pdf
- 《Race detection and more with ThreadSanitizer 2》 – https://lwn.net/Articles/598486/
- 《Google ThreadSanitizer — 排查多线程问题data race的大杀器》- https://zhuanlan.zhihu.com/p/139000777
- 《Introducing the Go Race Detector》- https://go.dev/blog/race-detector
- ThreadSanitizer Algorithm V2 – https://github.com/google/sanitizers/wiki/ThreadSanitizerAlgorithm
- paper: FastTrack: Efficient and Precise Dynamic Race Detection – https://users.soe.ucsc.edu/~cormac/papers/pldi09.pdf
- paper: Eraser: A Dynamic Data Race Detector for Multithreaded Programs – https://homes.cs.washington.edu/~tom/pubs/eraser.pdf
“Gopher部落”知识星球旨在打造一个精品Go学习和进阶社群!高品质首发Go技术文章,“三天”首发阅读权,每年两期Go语言发展现状分析,每天提前1小时阅读到新鲜的Gopher日报,网课、技术专栏、图书内容前瞻,六小时内必答保证等满足你关于Go语言生态的所有需求!2022年,Gopher部落全面改版,将持续分享Go语言与Go应用领域的知识、技巧与实践,并增加诸多互动形式。欢迎大家加入!
我爱发短信:企业级短信平台定制开发专家 https://tonybai.com/。smspush : 可部署在企业内部的定制化短信平台,三网覆盖,不惧大并发接入,可定制扩展; 短信内容你来定,不再受约束, 接口丰富,支持长短信,签名可选。2020年4月8日,中国三大电信运营商联合发布《5G消息白皮书》,51短信平台也会全新升级到“51商用消息平台”,全面支持5G RCS消息。
著名云主机服务厂商DigitalOcean发布最新的主机计划,入门级Droplet配置升级为:1 core CPU、1G内存、25G高速SSD,价格5$/月。有使用DigitalOcean需求的朋友,可以打开这个链接地址:https://m.do.co/c/bff6eed92687 开启你的DO主机之路。
Gopher Daily(Gopher每日新闻)归档仓库 – https://github.com/bigwhite/gopherdaily
我的联系方式:
- 微博:https://weibo.com/bigwhite20xx
- 博客:tonybai.com
- github: https://github.com/bigwhite
商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。
评论