标签 Golang 下的文章

string 与 rune 的设计哲学:为什么Go 程序员很少为“乱码”烦恼?

本文永久链接 – https://tonybai.com/2025/10/13/string-and-rune-in-go

大家好,我是Tony Bai。

“为什么我的字符又乱码了?!”

这是一个在软件开发历史上,曾让无数程序员彻夜难眠的哀嚎。处理文本,是编程中最基础的任务之一,但其背后关于编码 (Encoding) 和字符集 (Character Set) 的水,远比看起来要深。正如 Joel Spolsky 在其经典文章中疾呼的那样,这是每位软件开发者都必须了解的“绝对最低限度”的知识。

幸运的是,作为 Go 开发者,我们站在了巨人的肩膀上。Go 语言在设计之初,就以一种“独断”而富有远见的方式,为我们解决了大部分历史遗留的编码难题。然而,理解其背后的设计哲学,特别是 string 与 rune 这对“双子星”的共舞,依然是区分一名普通 Gopher 与一名优秀 Gopher 的关键。

本文将带你重温编码的基础,并深入探讨 Go 是如何从语言设计的根源上,让我们得以优雅地驰骋于多语言文本的世界。

回到本源——计算机不认识“字符”,只认识“比特”

让我们先直面一个最基本、但又常常被遗忘的事实:计算机的世界里没有字母、数字或符号,只有比特 (bit)——0 和 1 的序列。计算机所能存储和处理的一切,无论是文本、图片还是声音,最终都必须被翻译成这种二进制形式。为了让这些比特串代表人类可读的文本,我们需要一套规则,这套规则就是编码 (Encoding)

我们可以将这个过程拆分为两个核心概念:

  • 字符集 (Character Set):一个抽象的符号集合。例如,ASCII 字符集包含了 128 个字符,包括大小写英文字母、0-9 的数字、以及各种标点和控制符号。你可以把它想象成一本“字典”,里面列出了所有“合法”的字符。

  • 编码 (Encoding):一套将字符集中的每个符号,映射为特定比特序列的具体规则。例如,在 ASCII 编码中,这本“字典”规定了字母 A 对应的“页码”是 65,而 A 在计算机中的比特表示就是 65 的二进制形式 01000001。

乱码问题的根源,就在于使用了错误的“字典”和“编码规则”去解读一段比特序列。想象一下,一段用 Shift-JIS (一种日语编码) 写入的比特流,如果被错误地用 Mac Roman (一种西欧编码) 的“字典”来查找,结果自然是一堆无法理解的“天书”,也就是我们俗称的“乱码”。

Go 的“独断”——拥抱 Unicode 与 UTF-8

在 Go 诞生之前,软件世界是一片混乱的“编码战国时代”。ASCII 只有 128 个字符,连欧洲语言中常见的 é 或 ü 都无法表示。为了解决这个问题,各种各样的编码方案如雨后春笋般涌现:西欧有 ISO-8859-1,中国大陆有 GB-2312、GBK以及GB18030,中国台湾省有 BIG-5…… 每种编码都定义了自己的字符集和规则,彼此之间互不兼容。

最终,为了“书同文,车同轨”,Unicode 应运而生。它旨在创建一个包罗万象的“超级字符集”,为世界上每一种语言的每一个字符都分配一个唯一的数字编号,这个编号被称为码点 (Code Point)

然而,Unicode 本身并不是一种编码,它只是一本巨大的“字典”。如何将这些码点(数字)高效地转换为比特序列,则是由 UTF (Unicode Transformation Format) 家族的编码方案来完成的,其中最著名的就是 UTF-8

Go 的设计者们,在面对这段混乱的历史时,做出了一个极其重要的、带有“独断”色彩的决定:将 UTF-8 作为 Go 语言生态的默认和核心编码

这个决定,体现在 Go 语言的每一个角落:

  • Go 源码文件被规定必须以 UTF-8 编码保存。
  • Go 的 string 类型被设计为不可变的字节序列,并且标准库中的绝大多数操作,都假定并优化这些字节是合法的 UTF-8 编码。

这与许多早期语言(比如 PHP 等)形成了鲜明对比,在那些语言中,字符串仅仅是“字节袋”,语言本身对其内部编码一无所知,将处理编码的复杂性完全推给了开发者。Go 的这个设计,从源头上为开发者扫清了最大的障碍。

string 与 rune 的设计哲学——字节与字符的清晰分离

Go 语言为了优雅地处理 Unicode,其核心设计哲学就是清晰地分离“字节”和“字符”这两个概念,并通过 string 和 rune 这两个核心类型来体现。理解它们的区别,是掌握 Go 文本处理的关键。

  • string:一个 string 的表示是一个只读的字节切片 ([]byte)。它存储的是文本的 UTF-8 编码后的字节序列。它是数据的物理表示
  • rune:rune 是 Go 中用来代表一个 Unicode 码点 (Code Point) 的类型,它是 int32 的一个别名。你可以把它理解为 Go 世界中真正的“字符”。它是文本的逻辑表示

这种底层设计,直接导致了 len() 和 for range 在处理字符串时,那令人“困惑”却又合乎逻辑的不同行为。

一个示例,揭示所有秘密

让我们用一个包含中英文的字符串来做个实验,看看 Go 的设计哲学在实践中如何体现:

// https://go.dev/play/p/TANnV9NTQi0
package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    s := "你好, Go"

    // --- len():返回字节的数量 ---
    // 它的操作对象是 string 的物理表示 (bytes)。
    // 在 UTF-8 中,一个英文字符占 1 个字节,一个中文字符占 3 个字节。
    // 所以,字节总数 = 2*3 (你好) + 1 (,) + 1 ( ) + 2*1 (Go) = 10
    fmt.Printf("len(s) -> The number of bytes: %d\n", len(s))

    // --- utf8.RuneCountInString():返回字符(码点)的数量 ---
    // 它的操作对象是 string 的逻辑表示 (runes)。
    // "你好, Go" 共有 6 个字符(码点)。
    fmt.Printf("Rune count -> The number of characters: %d\n", utf8.RuneCountInString(s))

    fmt.Println("\n--- Iterating with standard for loop (by byte) ---")
    // --- 传统的 for 循环:按字节遍历 ---
    // 这会逐一打印出字符串的 10 个字节。对于多字节字符,会产生乱码。
    // 这种遍历方式在处理纯 ASCII 时是正确的,但在处理 Unicode 时是错误的。
    for i := 0; i < len(s); i++ {
        fmt.Printf("%x ", s[i])
    }
    fmt.Println()

    fmt.Println("\n--- Iterating with for range (by rune) ---")
    // --- for range 循环:Go 的魔法所在,按 rune 遍历 ---
    // for range 会自动解码 UTF-8 序列,每次迭代返回一个 rune 及其起始字节的索引。
    // 这是在 Go 中遍历字符串内容的“正确”且地道的方式。
    for index, r := range s {
        fmt.Printf("index: %d, char: %c, bytes: %d\n", index, r, utf8.RuneLen(r))
    }
}

运行该示例输出如下结果:

len(s) -> The number of bytes: 10
Rune count -> The number of characters: 6

--- Iterating with standard for loop (by byte) ---
e4 bd a0 e5 a5 bd 2c 20 47 6f 

--- Iterating with for range (by rune) ---
index: 0, char: 你, bytes: 3
index: 3, char: 好, bytes: 3
index: 6, char: ,, bytes: 1
index: 7, char:  , bytes: 1
index: 8, char: G, bytes: 1
index: 9, char: o, bytes: 1

这个例子清晰地告诉我们 Go 的设计哲学:

  • len(s) 给你的是字节长度,适用于网络传输、内存分配、缓冲区大小计算等底层、面向物理的场景。
  • for i := range s 给你的是字符 (rune),适用于所有需要处理文本内容的、面向逻辑的业务场景。

这种对“字节”和“字符”的明确区分,是 Go 程序在处理多语言文本时如此健壮的根本原因。

Go 开发者的日常:实践中的编码意识

尽管 Go 为我们做了很多,但在与外部世界交互时,编码意识依然不可或缺。

  • 文件 I/O:当你从一个文件中 io.Read 时,你读到的是原始的字节流。如果这个文件不是 UTF-8 编码的(例如,一个 GBK 编码的 .txt 文件),你必须使用像 golang.org/x/text/encoding 这样的包,将其显式地转换为 UTF-8 字符串后,才能在 Go 程序中安全地处理。
import (
    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

// gb_reader 是一个读取 GBK 编码文件的 io.Reader
// utf8_reader 将会是一个在读取时自动转换为 UTF-8 的 io.Reader
utf8_reader := transform.NewReader(gbk_reader, simplifiedchinese.GBK.NewDecoder())

// 从 utf8_reader 中读取的数据现在可以安全地在 Go 中使用了
utf8Bytes, _ := io.ReadAll(utf8_reader)
s := string(utf8Bytes)
  • Web 开发:在处理 HTTP 请求和响应时,Content-Type 头中的 charset=utf-8 是你与客户端之间的“契约”。Go 的 net/http 库默认会很好地处理 UTF-8,但你需要确保所有与之交互的系统都遵守了这个契约。

  • 数据库交互:一个经典的“伪正常”陷阱是,应用程序以 UTF-8 方式与数据库通信,但数据库连接或表本身却被错误地设置为 latin1 等编码。由于 latin1 是单字节编码,它可以“吞下”任何字节序列。数据存入时看似正常,应用程序读出时也能正确解析回 UTF-8 字符串。但只要你通过数据库管理工具查看,或者在数据库层面进行排序、搜索,就会立刻看到乱码。确保你的数据库连接 DSN 中明确指定了 charset=utf8mb4,是至关重要的最佳实践。

小结:站在巨人的肩膀上

Go 语言的设计,让我们不必再像前人那样,在各种编码的泥潭中苦苦挣扎。它通过将 UTF-8 提升为事实标准,并提供 string (字节序列) 和 rune (字符) 这一对强大而清晰的抽象,为我们构建了一个默认安全的文本处理世界。

此外,理解Go中 len() 与 for range在操作 string 类型数据时的区别,不仅仅是掌握一个语言的“奇技淫巧”,更是洞察 Go 语言如何从根本上解决了困扰软件行业数十年的编码难题。这份与生俱来的编码优势,正是 Go 语言简约而不简单的一个最佳例证。

如果想了解更多关于Go string和rune的“秘密”,可以进一步阅读我的《Go语言进阶课》的05讲。在《Go语言第一课》专栏的第13讲中,也有关于码点以及UTF-8编码的更为详细的讲解。

参考资料

  • What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text – https://kunststube.net/encoding/
  • The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) – https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/

你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


想系统学习Go,构建扎实的知识体系?

我的新书《Go语言第一课》是你的首选。源自2.4万人好评的极客时间专栏,内容全面升级,同步至Go 1.24。首发期有专属五折优惠,不到40元即可入手,扫码即可拥有这本300页的Go语言入门宝典,即刻开启你的Go语言高效学习之旅!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

从“键盘牛仔”到“规范工程师”,AI 浪潮下的程序员身份危机

本文永久链接 – https://tonybai.com/2025/10/12/the-programmer-identity-crisis

大家好,我是Tony Bai。

“我是一个程序员。一个编码者。一个键盘牛仔……这是我的乐趣,也是我的身份认同。”

近日,一篇题为《程序员的身份危机》的博文在技术社区中引发了广泛的共鸣与讨论。作者Simon Højberg以一个“手艺人”的深情独白开篇,将我们带回了编程的黄金时代——那个在 MIT 26 号楼里,伴随着早期晶体管蜂鸣声,黑客们为了追求“The Right Thing”(那个完美的、简洁优雅的程序)而沉浸于机器语言的“黑暗艺术”的年代。

然而,作者笔锋一转,指出现代 AI 浪潮正以前所未有的力量,威胁着这份传承了近 70 年的技艺(Craft)和身份认同。曾经那个充满奇迹、成就感和优雅解谜的编程未来,如今正被一层“不祥的黑暗、骗局和不确定性”所笼罩。这是一篇警示性的檄文,它迫使我们每一个技术从业者去思考一个根本性问题:当 AI 接管了“思考”,我们还剩下什么?

“规范工程师”的崛起与“技艺”的消逝

文章尖锐地指出,如果我们相信 AI 行业的亿万富翁、Hacker News 的舆论领袖和 LinkedIn 上的 LLM 狂人,那么软件开发的未来将与“编程”本身几乎毫无关系。一种被称为 “Vibe Coding(氛围编程)” 的新模式正在成为主流。

在这个新世界里,我们的角色被重新定义为 “规范工程师 (Specification Engineering)”

  • 输入从代码到 Markdown: 我们不再是深入代码库、解决复杂谜题、发掘技术秘密的工匠,而是变成了在 Markdown 中编写规范的“需求者”。
  • 思考过程外包 创造性的解谜过程被全权交给了机器,我们只需在多个 AI Agent 的标签页之间进行上下文切换,拥抱一种“分散的认知”。我们从创作者,沦为了“与其技艺相分离的操作员”。

作者悲观地认为,这种转变是对程序员独特抽象思维能力的贬低,将我们推向了一个本已由产品经理和设计师占据的领域。更令人不安的是,一些开发者似乎欣然接受了这个新身份,乐于扮演“指挥管弦乐队”的史蒂夫·乔布斯,却忘记了编程的乐趣源于成为那个亲手打造乐器的沃兹尼亚克。

当工具选择权被剥夺:来自管理的“新叙事”

这场身份危机不仅是技术演进的自然结果,更在企业内部被一股力量所推动。

文章观察到,在“疯狂追求生产力”的竞赛中,企业的管理者们正以一种前所未有的方式,强制要求开发者使用特定的 LLM 工具——“要么遵从,要么出局”。这在历史上是罕见的。我们的工具,无论是 Vim、Emacs 还是 VS Code,都如同厨师的刀、木匠的刨,是我们精心配置、用以匹配自己思维模式的“圣殿”。而如今,这种个性化的选择权正在被自上而下地剥夺。

作者认为,这种管理层叙事的转变,为他们提供了一种“打破过去几十年来程序员在公司中备受优待的平衡”的新方式。

对“自然语言编程”的古老警告

一些人将 LLM 的兴起,类比于从汇编到 Fortran 的语言革命。作者强烈反对这种类比,他认为两者有本质区别:

  1. Fortran 根植于编程: 它没有消除编程的形式化,而是扩展了其表达力和精度。
  2. Fortran 是可预测的: 给定输入,它总能产生正确的结果。

而 LLM 及其所依赖的自然语言指令,其本质是不精确的。这与程序员所珍视的一切背道而驰:可预测性、组合性、幂等性,以及那些不会“摇摆不定”的集成测试。 LLM 生成的代码代表了这一切的反面:不一致的混乱。

文章引用了计算机科学先驱迪杰斯特拉 (Dijkstra) 对“自然语言编程的愚蠢”的深刻批判:

“形式化文本的美德在于,它们的操纵只需要满足少数简单的规则即可……当你思考它时,你会发现,当我们使用母语时,我们几乎不可能避免各种各样的无稽之谈,而形式化文本是一个惊人有效的工具,可以排除所有这些胡说八道。”

我们对计算机精度的依赖和信任,或许正是我们如此轻易相信聊天机器人“言之凿凿”的原因,即使它们正在“煤气灯”般地误导我们。

注:“煤气灯效应”(Gaslighting)是一种心理操控手段,施加者通过不断地否认事实、扭曲真相,使受害者质疑自己的记忆、感受和理智。

认知外包的代价:丧失“理论构建”的能力

作者坦言,他发现自己在审查 LLM 生成的代码时,远不如审查自己或同事编写的代码时那么仔细。LLM 生成的代码似乎有一种天生的魔力,让人的“眼睛变得呆滞”。我们草草浏览,盲目接受,只要 CI 通过、程序能够编译,便万事大吉。直到几个小时后,才发现自己工作的基石早已腐烂。

这种“认知外包”的代价是巨大的。它剥夺了我们与代码库深度连接的机会,剥夺了我们形成对领域、问题和解决方案深刻理解的过程。

文章引用了 Peter Naur 的经典著作《编程即理论构建 (Programming as Theory Building)》。Naur 认为,编程的主要产出不是软件本身,而是程序员脑中构建起的关于代码库的“理论”——关于它如何运作、其形式化表达以及与现实世界的映射。只有具备了这个完善的“理论”,我们才能有效地对其进行扩展和修复。

而“Vibe-Coding”那种对 AI 生成代码的“矛盾一瞥”,使得构建这种理论变得极其困难,甚至不可能。优秀的设计源于沉浸,源于在文本缓冲区中反复推敲,甚至源于离开键盘的深度思考。AI 带来的“无摩擦”工作流,恰恰让我们避开了那些本可以通过迭代和探索“丑陋方案”才能最终发现优雅设计的道路。

小结:我愿为一名手艺人,而非操作员

文章最后,作者发出了充满个人情感的呐喊。他承认,让 AI 处理重复性的样板代码、或在文档海洋中寻找答案,并非坏事。但他“极度不愿”仅仅成为一个操作员或代码审查者,将有趣和创造性的工作拱手让人。

“我想要驾驶,想要沉浸于技艺,想要在管弦乐队中演奏,想要解决复杂的谜题。我愿为一名程序员,一名手艺人。”

作者认为,即使 LLM 达到了宣传中的高度,我们仍将失去我们之所以成为我们的根本:我们的技艺、我们的乐趣、我们与同事的连接,以及我们对所创造软件的自主理解。

这篇文章并非全然否定 AI,而是在 AI 狂热的叙事中,为“编程”这门古老而精妙的技艺发出了一声响亮且充满尊严的捍卫。它提醒我们,工具的进步不应以抹杀思考为代价,就像技术的进步不应以剥夺人们的工作和生存权利为代价一样。作为工程师,最终提供的价值在于我们的批判性思维、解决问题的乐趣以及我们亲手打磨的技艺。这些,或许才是 AI 时代下我们真正的“护城河”。

资料链接:https://hojberg.xyz/the-programmer-identity-crisis/


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


想系统学习Go,构建扎实的知识体系?

我的新书《Go语言第一课》是你的首选。源自2.4万人好评的极客时间专栏,内容全面升级,同步至Go 1.24。首发期有专属五折优惠,不到40元即可入手,扫码即可拥有这本300页的Go语言入门宝典,即刻开启你的Go语言高效学习之旅!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats