<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>FailureDetection on Tony Bai</title><link>https://tonybai.com/tags/failuredetection/</link><description>Recent content in FailureDetection on Tony Bai</description><generator>Hugo</generator><language>zh-cn</language><copyright>2004-2026 Tony Bai. 版权所有.</copyright><lastBuildDate>Fri, 20 Mar 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://tonybai.com/tags/failuredetection/index.xml" rel="self" type="application/rss+xml"/><item><title>如果服务器悄悄“猝死”，你的系统还能活几秒？揭秘分布式集群的“续命”保底机制</title><link>https://tonybai.com/2026/03/20/heartbeats-in-distributed-systems/</link><pubDate>Fri, 20 Mar 2026 00:00:00 +0800</pubDate><guid>https://tonybai.com/2026/03/20/heartbeats-in-distributed-systems/</guid><description>本文永久链接 – https://tonybai.com/2026/03/20/heartbeats-in-distributed-systems 大家好，我是Tony Bai。 在开发单体应用时，我们很少操心“服务器死没死”的问题——进程挂了就是挂了，整个服务直接 502。但在庞大的分布式系统和微服务架构中，最大的噩梦往往不是服务器彻底宕机，而是**“它悄悄死去了，但整个集群却以为它还活着”。*...</description></item></channel></rss>