goroutine - Tony Bai

标签 goroutine 下的文章

Go语言中的深拷贝：概念、实现与局限

九月 28, 2024
0 条评论

本文永久链接 – https://tonybai.com/2024/09/28/understand-deep-copy-in-go

前不久，在“Gopher部落”知识星球上回答了一个Gopher关于深拷贝(Deep Copy)的问题，让我感觉是时候探讨一下深拷贝技术了。

在日常开发工作中，深拷贝的使用频率相对较低，可能有80%的时间不需要使用深拷贝，只有在特定情况下才会遇到。这主要是因为大多数开发中处理的对象比较简单，通常只需使用浅拷贝(Shallow Copy)就能满足需求；此外，多数时候我们需要共享状态或数据，使用浅拷贝可以方便多个部分访问同一数据；最后，深拷贝通常比浅拷贝耗时更多，尤其是当对象嵌套较深时。因此，开发者倾向于选择更高效的浅拷贝。

说了这么多，那究竟什么是深拷贝以及浅拷贝呢？深拷贝又是在哪些场合下适用呢？在Go中如何实现深拷贝呢？带着这些问题，我们在本文中就来探讨一下Go语言中的深拷贝技术，希望能让大家对深拷贝技术的概念、实现以及局限有一个全面的了解。

1. 从细胞分裂看深拷贝

我们在初中生物课上都学过细胞分裂(Cell Division)，有条件的学校的学生可以用显微镜观看到细胞分裂的全过程，大致就如下图所示：

细胞分裂过程(图片来自网络)

我们知道细胞分裂复制了整个细胞的所有成分，包括细胞核、细胞质等，生成了一个完全独立的新细胞。无论原始细胞如何变化，分裂出的新细胞不会受到影响。而深拷贝就像是真正的细胞分裂，完全复制了原对象及其内部所有嵌套对象的数据，使新对象和原对象相互完全独立，各自演进，互不影响。

下面，我将使用Go语言给出一个结构体类型的示例，并用示意图直观展示深拷贝和浅拷贝的区别：

// Address 结构体
type Address struct {
    City  string
    State string
}

// Person 结构体
type Person struct {
    Name    string
    Age     int
    Address *Address
}

这里定义了Address和Person两个结构体，其中Person包含一个指向Address的指针(这可以理解为Person结构体的嵌套对象)。我们先来创建一个原始对象：

// 创建原始 Person 实例
original := Person{
    Name: "Alice",
    Age:  30,
    Address: &Address{
        City:  "New York",
        State: "NY",
    },
}

基于这个原始对象，我们可以使用下面代码创建一个浅拷贝的对象：

shallowCopy := original

下面是浅拷贝完毕的对象关系示意图：

我们看到浅拷贝后，两个Person对象虽然有部分字段已经完全独立分开（Name和Age），但仍然存在关联，那就是Address字段指向了同一个Address对象。这样无论是原始对象修改了Address，还是浅拷贝后的对象修改了Address，都会对另一个对象产生影响。

我们再来看看深拷贝，这里为Person结构体增加了深拷贝的方法，然后通过该方法得到一个深拷贝后的对象：

// DeepCopy方法
func (p Person) DeepCopy() Person {
    newPerson := p
    if p.Address != nil {
        newAddress := *p.Address
        newPerson.Address = &newAddress
    }
    return newPerson
}

deepCopy := original.DeepCopy()

我们看到：DeepCopy方法实现了对Person的深拷贝，它不仅复制了Person结构体，还创建了一个新的Address结构体并复制了其内容。这样原始对象与深拷贝出的对象就完全分开了，下面是深拷贝后的对象关系示意图：

通过上面的示意图，我们可以将深拷贝与浅拷贝的对比整理如下：

浅拷贝（Shallow Copy）

创建一个新对象，并复制原对象的字段值，但对于引用类型(如指针、切片、map等)，仅复制引用，不复制引用的对象。通常通过简单的赋值操作就能实现浅拷贝。

深拷贝（Deep Copy）

创建一个新对象，递归地复制原对象的所有字段值，对于引用类型，创建新的对象并复制其内容，而不是简单地复制引用。通常，深拷贝需要额外编写代码实现，简单的赋值操作对于复杂类型而言，无法实现深拷贝。

很显然就像在本文开始时所说的那样，我们日常使用最多的就是浅拷贝，浅拷贝的实现也是非常简单的，通过赋值语句就可以。那么我们为什么还需要深拷贝呢？或者说，在什么场景下需要使用到深拷贝呢？下面我就就来看看。

2. 为什么需要深拷贝？

根据上面提到的深拷贝的特点：独立与隔离，当数据的独立性和隔离性非常重要时，它能避免共享数据引发的副作用。据此，以下是需要使用深拷贝的常见场景，我们逐一简要说明一下。

2.1 防止意外修改共享数据

在Go语言中，切片、map和指针都是引用类型。如果多个对象引用同一个底层数据结构，修改其中一个对象的数据会影响所有引用该数据的对象。因此，在这些场合下，如果希望避免修改一个对象时影响其他对象，使用深拷贝是必需的。

下面这个Go例子中，shallowCopy和original共享同一个Data map，修改shallowCopy的数据会直接影响original。通过深拷贝Data map，deepCopy保持了数据的独立性：

package main

import "fmt"

type Config struct {
    Port int
    Data map[string]string
}

func main() {
    original := &Config{
        Port: 8080,
        Data: map[string]string{"key1": "value1"},
    }

    shallowCopy := original // 只是浅拷贝，共享Data引用

    // 深拷贝 Data
    deepCopy := &Config{
        Port: original.Port,
        Data: make(map[string]string),
    }
    for k, v := range original.Data {
        deepCopy.Data[k] = v
    }

    shallowCopy.Data["key1"] = "modified" // 修改会影响original
    fmt.Println(original.Data["key1"])    // 输出 "modified"

    deepCopy.Data["key1"] = "deepModified" // 修改不会影响original
    fmt.Println(original.Data["key1"])     // 输出 "modified"
}

2.2 并发编程中的数据隔离

Go语言利用goroutine进行并发编程。当多个goroutine操作相同的数据时，可能会导致竞争条件和数据一致性问题。如果每个goroutine都需要独立的数据副本，那么深拷贝是确保数据隔离的最佳方法。

下面这个示例就是在并发场景下，使用append深拷贝切片，确保每个goroutine操作的是独立的data副本，避免数据竞争：

package main

import "fmt"

func worker(data []int, ch chan []int) {
    // 深拷贝切片，避免影响其他 goroutine
    newData := append([]int(nil), data...)
    for i := range newData {
        newData[i] *= 2 // 修改数据
    }
    ch <- newData
}

func main() {
    data := []int{1, 2, 3}
    ch := make(chan []int)

    go worker(data, ch) // 启动goroutine
    go worker(data, ch) // 启动另一个goroutine

    result1 := <-ch
    result2 := <-ch

    fmt.Println(result1) // goroutine 1的独立数据副本 [2 4 6]
    fmt.Println(result2) // goroutine 2的独立数据副本 [2 4 6]
}

2.3 不可变对象需求

Go目前不直接支持不可变对象，但在某些场合（如函数式编程或安全性要求较高的应用），不可变性是很有用的。如果你希望传递给某个函数的数据不能被修改，那么需要在传递前对数据进行深拷贝。

下面示例通过深拷贝，保证original的数据在传递过程中不会被修改，保证了不可变性：

package main

import "fmt"

type ImmutableData struct {
    Values []int
}

// 修改函数
func modifyData(data ImmutableData) {
    data.Values[0] = 100 // 尝试修改
}

func main() {
    original := ImmutableData{
        Values: []int{1, 2, 3},
    }

    // 传递之前进行深拷贝
    copyData := ImmutableData{
        Values: append([]int(nil), original.Values...),
    }

    modifyData(copyData)
    fmt.Println(original.Values) // 输出 [1 2 3]，original数据保持不变
}

2.4 回滚机制或撤销操作

在涉及事务处理或编辑器等场景中，Go开发者常需要在操作前保存对象的快照，以便在出现错误或用户撤销操作时恢复到原状态。这时候，深拷贝用于保存独立的状态副本。下面示例使用了更复杂的数据结构来展示深拷贝的作用，并体现了在实际应用中如何通过深拷贝实现状态的回滚机制：

package main

import (
    "encoding/json"
    "fmt"
)

// State 结构体包含嵌套结构体和引用类型
type State struct {
    Value    string
    Data     []int
    Metadata *Metadata
}

// Metadata 是嵌套的引用类型结构体
type Metadata struct {
    Version int
    Author  string
}

// 深拷贝函数，通过JSON序列化与反序列化实现
func deepCopy(original *State) *State {
    copy := &State{}
    bytes, _ := json.Marshal(original)
    _ = json.Unmarshal(bytes, copy)
    return copy
}

func main() {
    // 初始化原始状态
    state := &State{
        Value: "initial",
        Data:  []int{1, 2, 3},
        Metadata: &Metadata{
            Version: 1,
            Author:  "Alice",
        },
    }

    // 保存当前状态的深拷贝
    backup := deepCopy(state)

    // 修改状态
    state.Value = "modified"
    state.Data[0] = 100
    state.Metadata.Version = 2

    // 输出修改后的状态
    fmt.Println("Current state:", state.Value)                       // 输出 "modified"
    fmt.Println("Current Data:", state.Data)                         // 输出 "[100 2 3]"
    fmt.Println("Current Metadata.Version:", state.Metadata.Version) // 输出 "2"

    // 恢复之前的状态
    state = backup

    // 输出恢复后的状态
    fmt.Println("Restored state:", state.Value)                       // 输出 "initial"
    fmt.Println("Restored Data:", state.Data)                         // 输出 "[1 2 3]"
    fmt.Println("Restored Metadata.Version:", state.Metadata.Version) // 输出 "1"
}

在这个场景中，backup是对state的深拷贝，确保可以在需要时恢复到原始状态。

在以上这些场景中，深拷贝虽然开销较大，但它确保了数据的独立性、隔离性以及安全性。当然，深拷贝适用的场景可能不止这些，这里也无法穷举所有场景。

知道了深拷贝的一些应用场景后，我们再来梳理一下如何在Go中实现深拷贝，其实在上面的示例中已经见过不少深拷贝的实现方法了。

3. Go语言中实现深拷贝的方法

在Go语言中，实现深拷贝有几种常见的方法，每种方法都有其优缺点和适用场景。让我们逐一探讨这些方法。

3.1 手动实现深拷贝

赋值操作通常无法实现复杂结构的深拷贝，因此最常见的深拷贝实现方法就是像上面示例中那样根据具体的类型手动实现深拷贝。手动实现深拷贝是最直接但也可能是最繁琐的方法，通常我们要为每种要深拷贝的类型单独编写深拷贝函数DeepCopy(Go没有像Java那样有object基类，因此也没有内置的clone方法去override)。

关于手动实现深拷贝DeepCopy方法的示例在前面我们已经见识过了，比如最开始的那个Person类型DeepCopy方法。

手动实现深拷贝的优点显而易见，那就是开发者可以完全控制拷贝的过程，并且性能通常较好，可以避免使用反射等有额外开销的机制来实现。

当然不足也很明显，那就是我们需要为每个要支持深拷贝的类型都维护一个单独的实现，并且对于带有复杂嵌套结构的类型，这个实现还会很冗长和复杂。

当是否可以有“万能”的深拷贝函数呢？我们继续往下看。

3.2 使用反射实现通用深拷贝

借助Go的reflect大法，我们可以实现一个通用的深拷贝函数，理论上，可以适用于各种类型。下面是一个示例实现（仅是示例，不要用在生产中）：

package main

import (
    "fmt"
    "reflect"
)

// 深拷贝函数，使用 reflect 递归处理各种类型
func DeepCopy(src interface{}) interface{} {
    if src == nil {
        return nil
    }

    // 通过 reflect 获取值和类型
    value := reflect.ValueOf(src)
    typ := reflect.TypeOf(src)

    switch value.Kind() {
    case reflect.Ptr:
        // 对于指针，递归处理指针指向的值
        copyValue := reflect.New(value.Elem().Type())
        copyValue.Elem().Set(reflect.ValueOf(DeepCopy(value.Elem().Interface())))
        return copyValue.Interface()

    case reflect.Struct:
        // 对于结构体，递归处理每个字段
        copyValue := reflect.New(typ).Elem()
        for i := 0; i < value.NumField(); i++ {
            fieldValue := DeepCopy(value.Field(i).Interface())
            copyValue.Field(i).Set(reflect.ValueOf(fieldValue))
        }
        return copyValue.Interface()

    case reflect.Slice:
        // 对于切片，递归处理每个元素
        copyValue := reflect.MakeSlice(typ, value.Len(), value.Cap())
        for i := 0; i < value.Len(); i++ {
            copyValue.Index(i).Set(reflect.ValueOf(DeepCopy(value.Index(i).Interface())))
        }
        return copyValue.Interface()

    case reflect.Map:
        // 对于映射，递归处理每个键值对
        copyValue := reflect.MakeMap(typ)
        for _, key := range value.MapKeys() {
            copyValue.SetMapIndex(key, reflect.ValueOf(DeepCopy(value.MapIndex(key).Interface())))
        }
        return copyValue.Interface()

    default:
        // 其他类型（基本类型，数组等）直接返回原始值
        return src
    }
}

type Address struct {
    Street string
    City   string
}

type Person struct {
    Name    string
    Age     int
    Address *Address
}

func main() {
    // 初始化原始对象
    original := &Person{
        Name: "Alice",
        Age:  30,
        Address: &Address{
            Street: "123 Go St",
            City:   "Golang City",
        },
    }

    // 使用 reflect 实现的通用深拷贝
    copy := DeepCopy(original).(*Person)

    // 修改拷贝对象的值
    copy.Address.City = "New City"
    copy.Age = 31

    // 输出结果
    fmt.Println("Original Addr:", original.Address) // 输出 &{123 Go St Golang City}
    fmt.Println("Copy Addr:", copy.Address)         // 输出 &{123 Go St New City}
}

我们看到，在示例中，reflect包可以在运行时检查和操作Go的值。通过reflect.ValueOf(src)获取到值后，根据值的类型（指针、结构体、切片、map等）再递归进行深拷贝。如果遇到指针类型，DeepCopy将递归地拷贝指向的值，新的值通过reflect.New创建；对于结构体类型，它通过NumField()遍历字段，并递归地深拷贝该字段；对切片进行深拷贝时，首先使用reflect.MakeSlice()创建新的切片，再递归处理每个元素；对于map，它用reflect.MakeMap()创建新的map，并递归处理键值对。

使用reflect包实现深拷贝的优点十分明显，那就是通用性强，能够处理各种数据结构（如指针、结构体、切片、map等），无需为每个类型单独实现DeepCopy方法。但由于使用了reflect，其带来的额外开销也是不可忽视的，尤其是对于嵌套很深的复杂类型。

有些情况是reflect无法正确处理的，比如被拷贝的类型中带有非导出字段时(比如给Person结构体增加一个gender字段)，上面的反射版DeepCopy实现就会抛出panic：

panic: reflect.Value.Interface: cannot return value obtained from unexported field or method

此外，实现一个生产级的DeepCopy并非易事，我们可以找一些“久经考验”的第三方库，比如下面的jinzhu/copier。

3.3 使用第三方库

有一些第三方库提供了深拷贝功能，例如github.com/jinzhu/copier，这类库通常结合了反射和一些优化技巧。在经过广泛的使用和反馈后，可以在生产中使用，并且可以覆盖大多数需求场景。

下面是使用copier实现对带有非导出字段的结构体类型的深拷贝：

package main

import (
    "fmt"

    "github.com/jinzhu/copier"
)

type Person struct {
    Name    string
    Age     int
    Address *Address
    gender  string
}

type Address struct {
    Street string
    City   string
}

func main() {
    addr := Address{
        Street: "Go 101 street",
        City:   "Mars Capital",
    }
    original := Person{
        Name:    "Alice",
        Age:     30,
        Address: &addr,
        gender:  "female",
    }

    fmt.Println(original) // 输出：{Alice 30 0xc0000b0000 female}

    var copied Person
    err := copier.CopyWithOption(&copied, &original, copier.Option{
        DeepCopy: true,
    })
    if err != nil {
        fmt.Println(err)
        return
    }
    fmt.Println(copied) // 输出：{Alice 30 0xc0000b0020 female}
}

copier是怎么做到的呢？翻看copier源码，可以找到这样一个函数：

func copyUnexportedStructFields(to, from reflect.Value) {
    if from.Kind() != reflect.Struct || to.Kind() != reflect.Struct || !from.Type().AssignableTo(to.Type()) {
        return
    }

    // create a shallow copy of 'to' to get all fields
    tmp := indirect(reflect.New(to.Type()))
    tmp.Set(from)

    // revert exported fields
    for i := 0; i < to.NumField(); i++ {
        if tmp.Field(i).CanSet() {
            tmp.Field(i).Set(to.Field(i))
        }
    }
    to.Set(tmp)
}

我们看到copyUnexportedStructFields函数首先检查源值和目标值是否都是结构体，并且源类型是否可以赋值给目标类型。如果可以赋值，则创建一个目标类型的新实例tmp，并将源值完整地设置到这个新实例中。这一步可以复制所有字段，包括非导出字段。接下来，遍历目标结构体的所有字段。对于可以设置的字段（即导出字段），将原始目标值中的对应字段值设置回tmp。最后，将tmp设置回原始目标值。

这个过程巧妙地利用了Go语言的反射机制。通过创建一个新的结构体实例并直接设置整个源值，它可以绕过Go语言对非导出字段的访问限制。然后，通过只恢复导出字段的原始值，保持了目标结构体中导出字段的完整性，同时保留了源结构体中非导出字段的值。

然而，这种方法也有一些潜在的限制，比如对于包含指针或引用类型的非导出字段，这种方法就无法真正实现深拷贝，我们改造一下上面的示例：

type Person struct {
    Name    string
    Age     int
    Address *Address
    gender  *string
}

type Address struct {
    Street string
    City   string
}

func (p *Person) SetGender(gender string) {
    p.gender = &gender
}
func (p *Person) Gender() *string {
    return p.gender
}

func main() {
    addr := Address{
        Street: "Go 101 street",
        City:   "Mars Capital",
    }
    original := Person{
        Name:    "Alice",
        Age:     30,
        Address: &addr,
    }
    original.SetGender("female")

    fmt.Println(original) // 输出：{Alice 30 0xc00006a020 0xc000014070}
    fmt.Println(original.Gender()) // 输出：0xc000014070

    var copied Person
    err := copier.CopyWithOption(&copied, &original, copier.Option{
        DeepCopy: true,
    })
    if err != nil {
        fmt.Println(err)
        return
    }
    fmt.Println(copied) // 输出：{Alice 30 0xc00006a040 0xc000014070}
    fmt.Println(copied.Gender()) // 输出：0xc000014070
}

这里我们在Person类型中增加了一个字符串指针类型的非导出字段gender，我们看到通过copier进行拷贝的结果并不符合深拷贝的要求，copied和original使用了同一个gender了。因此，像jinzhu/copier这样的第三方库，虽然能处理大多数常见情况，但我们仍要明确它的局限。

不过即便有了上述三类实现深拷贝的方法，有些时候要在Go中实现完美的深拷贝也是很难的，甚至是不可能的，下面我们来看看Go语言中深拷贝的局限性。

4. Go语言中深拷贝的局限性

我们先从已经遇到过的非导出字段说起。

4.1 无法访问的非导出字段

就像上面示例中那样，如果原类型中带有非导出字段，那么有些时候即便使用jinzhu/copier这样的第三方通用拷贝库也很难实现真正的深拷贝。如果原类型在你的控制下，最好的方法是为原类型手动添加一个DeepCopy方法供外部使用。

不过，即便如此，某些情况下，手工实现一个DeepCopy方法也是很难的，甚至是不可能的，我们看下面两种局限的情况。

4.2 循环引用问题

当原类型中存在循环引用时，简单的递归深拷贝可能会导致无限循环。例如:

type Node struct {
    Value int
    Next  *Node
    Prev  *Node
}

func main() {
    node1 := &Node{Value: 1}
    node2 := &Node{Value: 2}
    node1.Next = node2
    node2.Prev = node1

    // 这里的深拷贝可能会导致无限递归
}

针对这样的带有循环引用的类型，我们通常会手工实现其DeepCopy方法，并通过使用类似哈希表的方式记录已经复制过的对象，下面是一个Node结构体的DeepCopy的示例实现：

package main

import (
    "fmt"
)

// Node表示双向链表的节点
type Node struct {
    Value int
    Next  *Node
    Prev  *Node
}

// DeepCopy方法：对Node进行深拷贝
func (n *Node) DeepCopy() *Node {
    // 初始化visited map用于记录已访问的节点，防止无限递归
    visited := make(map[*Node]*Node)
    return n.deepCopyRecursive(visited)
}

// deepCopyRecursive私有递归方法，内部处理深拷贝逻辑
func (n *Node) deepCopyRecursive(visited map[*Node]*Node) *Node {
    // 如果节点为空，返回nil
    if n == nil {
        return nil
    }

    // 如果节点已经被拷贝过，直接返回拷贝的引用
    if copyNode, found := visited[n]; found {
        return copyNode
    }

    // 创建当前节点的拷贝，并将其加入已访问map
    copyNode := &Node{Value: n.Value}
    visited[n] = copyNode

    // 递归拷贝下一个和前一个节点
    copyNode.Next = n.Next.deepCopyRecursive(visited)
    copyNode.Prev = n.Prev.deepCopyRecursive(visited)

    return copyNode
}

func main() {
    // 创建包含循环引用的双向链表
    node1 := &Node{Value: 1}
    node2 := &Node{Value: 2}
    node1.Next = node2
    node2.Prev = node1

    // 进行深拷贝
    copyNode1 := node1.DeepCopy()

    // 修改拷贝对象，确保原始对象不受影响
    copyNode1.Next.Value = 3

    // 输出原始链表和拷贝链表的指针地址，验证深拷贝是否成功
    fmt.Println("Original node1 address:", node1)
    fmt.Println("Original node1.Next address:", node1.Next)
    fmt.Println("Original node2.Prev address:", node2.Prev)

    fmt.Println("Copied node1 address:", copyNode1)
    fmt.Println("Copied node1.Next address:", copyNode1.Next)
    fmt.Println("Copied node2.Prev address:", copyNode1.Next.Prev)
}

运行这段示例程序会得到下面结果：

Original node1 address: &{1 0xc00011c018 <nil>}
Original node1.Next address: &{2 <nil> 0xc00011c000}
Original node2.Prev address: &{1 0xc00011c018 <nil>}
Copied node1 address: &{1 0xc00011c048 <nil>}
Copied node1.Next address: &{3 <nil> 0xc00011c030}
Copied node2.Prev address: &{1 0xc00011c048 <nil>}

下面再说一种极端情况，导致我们即便手工实现也无法实现深拷贝。

4.3 某些类型不支持拷贝

Go语言的某些内置类型或标准库中的类型，比如sync.Mutex、time.Timer等不应该被复制，复制这些类型可能会导致未定义的行为。

type Resource struct {
    Data  string
    mutex sync.Mutex
}

// 错误的深拷贝方式
func (r *Resource) DeepCopy() *Resource {
    return &Resource{
        Data:  r.Data,
        mutex: r.mutex, // 不应该复制 mutex
    }
}

对于这样的包含不支持拷贝的类型，我们在不改变源类型组成的情况下，无法实现深拷贝。

除了上面三种情况外，有些时候性能也是使用深拷贝时需要考量的点，尤其是当你使用反射实现的通用深拷贝技术时，可能会带来显著的性能开销。尤其是在关键路径上处理大型数据结构或频繁操作时，这可能成为一个问题。

如果在使用深拷贝时遇到性能问题，可以考虑通过手动编写深拷贝逻辑替代反射、使用对象池或预分配的方式缓存并优化内存分配，减少深拷贝的次数，甚至是针对复杂类型或数据结构的并发拷贝来优化，这些需要视具体场景来确定优化策略，这里就不展开了。

5. 深拷贝（Deep Copy）vs. 克隆（Clone）

最后再来说一下深拷贝（Deep Copy）和克隆（Clone）。它们都是复制对象的概念，但它们在概念和实现细节上存在一些差异。

通过上面说明，我们知道深拷贝是一种递归的复制过程，不仅复制对象本身，还会复制该对象所有引用的其他对象。这意味着所有的对象层级都会被独立地复制，最终形成一个完全独立的新对象，原对象和拷贝之间不存在任何共享的内存。

而克隆是指复制一个对象。其行为依赖于具体语言的实现方式。对于某些语言，克隆可能指的是浅拷贝（Shallow Copy），即只复制对象的基础数据字段，引用类型字段仍然指向原始对象。也有些语言将克隆定义为深拷贝，取决于上下文。比如在Java中，Object类提供了clone()方法，默认是浅拷贝，用户可以通过实现Cloneable接口来自定义克隆的行为，比如实现为深拷贝的逻辑。

因此，当目标对象在结构上与原对象一致的情况下，可以将深拷贝理解为一种特定类型的克隆。但在一些场景下（比如RPC），深拷贝不仅仅是简单的在内存中深度复制自身，而是需要考虑源对象和目的对象之间的结构差异和数据转换逻辑，本文并未覆盖这类场景，大家可以自行脑补。

5. 小结

在本文中，我们深入探讨了Go语言中的深拷贝概念、实现方法以及局限性。深拷贝在需要对象之间完全独立的场景中尤为重要，尤其是在防止意外修改共享数据、并发编程、不可变对象需求、回滚机制等情况下。我们介绍了手动实现深拷贝、利用反射的通用深拷贝方法以及使用第三方库的不同实现方式，并分析了每种方法的优缺点。

尽管深拷贝提供了数据的独立性和安全性，但在实现过程中也面临一些挑战，包括无法访问非导出字段、循环引用的问题，以及某些类型不支持拷贝的限制。性能问题也是一个需要考虑的因素，特别是在处理复杂数据结构时。

通过对深拷贝的理解，我希望大家能够在实际开发中更有效地使用这一技术，并根据具体需求选择合适的实现方式，从而优化代码质量和程序性能。

Gopher部落知识星球在2024年将继续致力于打造一个高品质的Go语言学习和交流平台。我们将继续提供优质的Go技术文章首发和阅读体验。同时，我们也会加强代码质量和最佳实践的分享，包括如何编写简洁、可读、可测试的Go代码。此外，我们还会加强星友之间的交流和互动。欢迎大家踊跃提问，分享心得，讨论技术。我会在第一时间进行解答和交流。我衷心希望Gopher部落可以成为大家学习、进步、交流的港湾。让我相聚在Gopher部落，享受coding的快乐! 欢迎大家踊跃加入！

img{512x368}

著名云主机服务厂商DigitalOcean发布最新的主机计划，入门级Droplet配置升级为：1 core CPU、1G内存、25G高速SSD，价格5$/月。有使用DigitalOcean需求的朋友，可以打开这个链接地址：https://m.do.co/c/bff6eed92687 开启你的DO主机之路。

Gopher Daily(Gopher每日新闻) – https://gopherdaily.tonybai.com

我的联系方式：

微博(暂不可用)：https://weibo.com/bigwhite20xx
微博2：https://weibo.com/u/6484441286
博客：tonybai.com
github: https://github.com/bigwhite
Gopher Daily归档 – https://github.com/bigwhite/gopherdaily
Gopher Daily Feed订阅 – https://gopherdaily.tonybai.com/feed

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。

Go unique包：突破字符串局限的通用值Interning技术实现

九月 18, 2024
1 条评论

本文永久链接 – https://tonybai.com/2024/09/18/understand-go-unique-package-by-example

Go的1.23版本中引入了一个新的标准库包unique，为Go开发者带来了高效的值interning能力。这种能力不仅适用于字符串类型值，还可应用于任何可比较(comparable)类型的值。

本文将简要探讨interning技术及其在Go中的实现方式，通过介绍unique包的功能，帮助读者更好地理解这一技术及其实际应用。

1. 从string interning技术说起

通常提到interning技术时，指的是传统的字符串驻留（string interning）技术。它是一种优化方法，旨在减少程序中重复字符串的内存占用，并提高字符串比较操作的效率。其基本原理是将相同的字符串值在内存中只存储一次，所有对该字符串的引用都指向同一内存地址，而不是为每个相同字符串创建单独的副本。下图展示了使用和不使用string interning技术的对比:

这个图直观地展示了string interning如何通过共享相同的字符串来节省内存和提高效率。我们看到：在不使用string interning的情况下，每个字符串都有自己的内存分配，即使内容相同，比如”Hello”字符串出现两次，占用了两块不同的内存空间。而在使用string interning的情况下，相同内容的字符串只存储一次，比如：两个”Hello”字符串引用指向同一个内存位置。

string interning在多种场景下非常有用，比如在解析文本格式(如XML、JSON)时，interning能高效处理标签名称经常重复的问题；在编译器或解释器的实现时，interning能够减少符号表中的重复项等。

传统的string interning通常使用哈希表或字典来存储字符串的唯一实例。每次出现新字符串时，程序首先会检查哈希表中是否已有相同的字符串，若存在则返回其引用，若不存在则将其存储在表中。

Michael Knyszek在Go官博介绍interning技术时，也给出了一个传统实现的代码片段：

var internPool map[string]string

// Intern returns a string that is equal to s but that may share storage with
// a string previously passed to Intern.
func Intern(s string) string {
    pooled, ok := internPool[s]
    if !ok {
        // Clone the string in case it's part of some much bigger string.
        // This should be rare, if interning is being used well.
        pooled = strings.Clone(s)
        internPool[pooled] = pooled
    }
    return pooled
}

这种实现虽然简单，但Knyszek指出了其存在几个问题：

一旦字符串被intern，就永远不会被释放。
在多goroutine环境下使用需要额外的同步机制。
仅限于字符串类型值，不能用于其他类型的值。

Go 1.23版本引入的unique包就是string interning技术的一种Go官方实现，当然就像前面所说，unique包不仅仅支持传统的string interning，还支持任何支持比较的类型的值的interning。

不过，在介绍unique包之前，我们简单看看这些年来Go社区对interning技术的贡献。

2. Go社区interning技术的实现简史

由于其他主流语言都或多或少有了对string interning的支持，Go社区显然也需要这样的包，在Go issues列表中，我能找到的最早提出在Go中添加interning技术实现的是2013年go核心开发人员Brad Fitzpatrick提出的”proposal: runtime: optionally allow callers to intern strings“。

2019年，Josh Bleecher Snyder发表了一篇博文Interning strings in Go，探讨了interning的Go实现方法，并给出一个简单但重度使用sync.Pool的interning实现，该实现支持对string和字节切片的interning。

2021年，tailscale为了实现可以高效表示ip地址的netaddr包，构建和开源了go4.org/intern包，这是一个可用于量产级别的interning实现。

注：go4.org中这个go4的名字很可能就是因为go4.org这个组织只有四个contributors：Brad Fitzpatrick、Josh Bleecher Snyder、Dave Anderson和Matt Layher。之前的一篇文章《理解unsafe-assume-no-moving-gc包》中的unsafe-assume-no-moving-gc包也是go4.org下面的。

之后，Brad Fitzpatrick将inetaf/netaddr包的实现合并到了Go标准库net/netip中，而netaddr包依赖的go4.org/intern包也被移入Go项目，变为internal/intern包，并被net/netip包所使用。

直到2023年9月，mknyszek提出”unique: new package with unique.Handle“的proposal，给出unique包的API设计和参考实现。unique落地后，原先使用internal/intern包的net/netip也都改为使用unique包了，internal/intern在Go 1.23版本被移除。

接下来，我们来看看这篇文章的主角unique包。

3. Go的unique包介绍

相较于传统的interning实现以及Go社区之前的实现，Go 1.23引入的unique包提供了一个更加通用和高效的interning实现方案。下面我们就分别从API、unique包的优势以及实现原理等几个方面介绍一下这个包。

3.1 unique包的API

从用户角度看，unique包提供的核心API非常简洁：

$go doc unique.Handle
package unique // import "unique"

type Handle[T comparable] struct {
    // Has unexported fields.
}

func Make[T comparable](value T) Handle[T]
func (h Handle[T]) Value() T

Make函数就是unique包的”Intern”函数，它接受一个可比较类型的值，返回一个intern后的值，不过和前面那个传统实现方式的Intern函数不同，Make函数返回的是一个Handle[T]类型的值。针对同一个传给Make函数的值，返回的Handle[T]类型的值是相同的：

// unique-examples/string_interning.go
package main

import "unique"

func main() {
    h1 := unique.Make("hello")
    h2 := unique.Make("hello")
    h3 := unique.Make("hello")
    h4 := unique.Make("golang")
    println(h1 == h2) // true
    println(h1 == h3) // true
    println(h1 == h4) // false
    println(h2 == h4) // false
}

unique包的作者Knyszek认为Handle[T]和Lisp语言中的Symbol十分类似，Symbol在Lisp中是interned后的字符串，Lisp确保相同的字符串只存储一次，提高内存存储和使用效率。

不过前面说了，unique不仅支持字符串值的interning，还支持其他可比较类型的值的interning，下面是一个int interning和一个自定义可比较类型的interning的例子：

// unique-examples/int_interning.go

package main

import "unique"

func main() {
    var a, b int = 5, 6
    h1 := unique.Make(a)
    h2 := unique.Make(a)
    h3 := unique.Make(b)
    println(h1 == h2) // true
    println(h1 == h3) // false
}

// unique-examples/user_type_interning.go

package main

import "unique"

type UserType struct {
    a int
    z float64
    s string
}

func main() {
    var u1 = UserType{
        a: 5,
        z: 3.14,
        s: "golang",
    }
    var u2 = UserType{
        a: 5,
        z: 3.15,
        s: "golang",
    }
    h1 := unique.Make(u1)
    h2 := unique.Make(u1)
    h3 := unique.Make(u2)
    println(h1 == h2) // true
    println(h1 == h3) // false
}

注：如果要intern的类型T是包含指针的结构体，这些指针指向的值几乎总是会逃逸到堆上。

通过Make获得的Handle[T]的Value方法可以获取到interning值的原始值，我们看下面示例：

// unique-examples/value.go
package main

import (
    "fmt"
    "unique"
)

type UserType struct {
    a int
    z float64
    s string
}

func main() {
    var u1 = UserType{
        a: 5,
        z: 3.14,
        s: "golang",
    }
    h1 := unique.Make(u1)
    h2 := unique.Make("hello, golang")
    h3 := unique.Make(567890)
    v1 := h1.Value()
    v2 := h2.Value()
    v3 := h3.Value()
    fmt.Printf("%T: %v\n", v1, v1) // main.UserType: {5 3.14 golang}
    fmt.Printf("%T: %v\n", v2, v2) // string: hello, golang
    fmt.Printf("%T: %v\n", v3, v3) // int: 567890
}

注：Value方法返回的是值的浅拷贝，对于复合类型可能存在共享底层数据的情况。

3.2 unique包的实现原理

传统的字符串interning实现起来可能并不难，但unique包的目标是设计支持可比较类型、interning值也可被GC且支持快速interning值比较的方案，unique包的实现涉及到hashtrimap、细粒度锁以及与runtime内gc相关函数结合的技术难题，因此其门槛还是很高的，即便是Go核心团队成员Knyszek实现的unique包，在Go 1.23发布后也被发现了较为“严重”的bug，该问题将在Go 1.23.2版本修正。

下面是一个unique包实现原理的示意图：

上图展示了Make、Handle[T]和Value方法之间的关系，以及它们如何与内部的map(hashtrieMap)交互。

我们看到，图中三次调用Make(“hello”)都返回相同的Handle[string]{ptr1}，即无论调用多少次Make，对于相同的输入值，Make总是返回相同的Handle。

图中的Handle[string]{ptr1}是一个包含指向存储”hello”的内存位置指针的结构，所有三次Make调用返回的Handle都指向同一个内存位置。下面是Handle结构体的定义，看了你就明白了这句话的含义：

// $GOROOT/src/unique/handle.go
type Handle[T comparable] struct {
    value *T
}

注：这里Handle内部的指针*T都是strong pointer(强指针)，以图中示例，只要有一个Handle实例(由Make返回的)存在，内存中的”hello”就不会被GC。

Handle[string]{ptr1}的Value()方法返回存储的字符串值”hello”。

unique包有一个内部map(hashtrieMap)存储键值对，键是字符串”hello”的clone，值是一个weak.Pointer，指向存储实际字符串值的内存位置。weak.Pointer 是Go 1.23版本的内部包internal/weak中的一个类型，主要用于实现弱指针（weak pointer）的功能。weak.Pointer的主要作用是允许引用一个对象，而不会阻止该对象被垃圾收集器回收。具体来说，它允许你持有一个指向对象的指针，但当该对象的强指针消失时，垃圾收集器仍然可以回收该对象。下面是一张weak Pointer工作机制的示意图，展示了弱指针的生命周期以及对GC行为的影响：

初始状态下，应用创建一个对象，同时创建一个强指针和一个weak.Pointer指向该对象。GC检查对象，但因为存在强指针，所以不能回收。强指针被移除，只剩下weak.Pointer指向对象。GC检查对象，发现没有强指针，于是回收对象。内存被释放，weak.Pointer变为nil。

由于weak包位于internal包中，它只能在Go的标准库或特定包中使用，我们只能用下面的伪代码来展示weak.Pointer的机制：

package main

import (
    "fmt"
    "runtime"
    "unsafe"
    "internal/weak"
)

type MyStruct struct {
    name string
}

func main() {
    // 创建一个对象，obj可以理解为该对象的强指针
    obj := &MyStruct{name: "object1"} 

    // 创建一个weak.Pointer指向obj，weakPtr是对obj指向内存的弱指针
    weakPtr := weak.Make(obj)

    // 显示对象的值，通过强指针和弱指针都可以
    fmt.Println("Before GC:", weakPtr.Value())
    fmt.Println("Before GC:", *obj)

    // 释放原始对象的强指针
    obj = nil

    // 强制执行GC，这时由于弱指针无法阻止GC，obj指向的内存可能被回收
    runtime.GC()

    // 查看弱指针是否仍然有效，这里不能直接使用obj，因为对象可能已经被回收
    fmt.Println("After GC:", weakPtr.Value())
}

弱指针有一些典型的使用场景，比如在缓存机制中，可能希望引用某些对象而不阻止它们被垃圾回收。这样可以在内存不足时自动释放不再使用的缓存对象；又比如在某些场景下，不希望对象长时间驻留在内存中，但仍然希望能够在需要时重新创建或加载它们，即延迟加载的对象；在某些数据结构中（如哈希表或链表），持有强指针可能会导致内存泄漏，弱指针可以有效避免这种情况。

注：目前Knyszek已经提出proposal，将weak包提升为标准库公共API，该proposal已经被accept，最早将在Go 1.24版本落地。

3.3 unique包的优势

从上面示例和原理示意图来看，unique包的设计和实现有几个显著的优势：

泛型支持

通过使用Go的泛型特性，unique包可以处理任何可比较的类型，大大扩展了其应用范围，不再局限于字符串类型。

高效的内存管理

unique包使用了运行时级别的弱指针实现，确保当所有相关的Handle[T](即强指针)都不再被使用时，内部map中的值可以被垃圾回收，这既避免了内存长期占用，也避免了内存泄漏问题。

快速比较操作

Handle[T]类型的比较操作被优化为简单的指针比较，这比直接比较值(特别是对于大型结构体或长字符串内容)要快得多。

3.4 unique包的实际应用

unique包刚刚诞生，目前在Go标准库中的实际应用主要就是在net/netip包中，替代了之前由go4.org/intern移植到标准库中的internal/intern包。

net/netip包使用unique来优化Addr结构体中的addrDetail字段：

type Addr struct {
    // 其他字段...

    // Details about the address, wrapped up together and canonicalized.
    z unique.Handle[addrDetail]
}

// addrDetail represents the details of an Addr, like address family and IPv6 zone.
type addrDetail struct {
    isV6   bool   // IPv4 is false, IPv6 is true.
    zoneV6 string // != "" only if IsV6 is true.
}

// z0, z4, and z6noz are sentinel Addr.z values.
// See the Addr type's field docs.
var (
    z0    unique.Handle[addrDetail]
    z4    = unique.Make(addrDetail{})
    z6noz = unique.Make(addrDetail{isV6: true})
)

// WithZone returns an IP that's the same as ip but with the provided
// zone. If zone is empty, the zone is removed. If ip is an IPv4
// address, WithZone is a no-op and returns ip unchanged.
func (ip Addr) WithZone(zone string) Addr {
    if !ip.Is6() {
        return ip
    }
    if zone == "" {
        ip.z = z6noz
        return ip
    }
    ip.z = unique.Make(addrDetail{isV6: true, zoneV6: zone})
    return ip
}

通过使用unique，net/netip包能够显著减少处理大量IP地址时的内存占用。特别是对于具有相同zone的IPv6地址，内存使用可以大幅降低。

下面我们也通过一个简单的示例来看看使用unique包的内存占用减少的效果。

3.5 内存占用减少的效果

现在我们创建100w个长字符串，这100w个字符串中，有1000种不同的字符串，相当于每种字符串有1000个重复值。下面分别用unique包和不用unique包来演示这个示例，看看内存占用情况：

// unique-examples/effect_with_unique.go 

package main

import (
    "fmt"
    "runtime"
    "strings"
    "unique"
)

const (
    numItems    = 1000000
    stringLen   = 20
    numDistinct = 1000
)

func main() {
    // 创建一些不同的字符串
    distinctStrings := make([]string, numDistinct)
    for i := 0; i < numDistinct; i++ {
        distinctStrings[i] = strings.Repeat(string(rune('A'+i%26)), stringLen)
    }

    // 使用unique包
    withUnique := make([]unique.Handle[string], numItems)
    for i := 0; i < numItems; i++ {
        withUnique[i] = unique.Make(distinctStrings[i%numDistinct])
    }

    runtime.GC() // 强制GC
    printMemUsage("With unique")

    runtime.KeepAlive(withUnique)
}

func printMemUsage(label string) {
    var m runtime.MemStats
    runtime.ReadMemStats(&m)
    fmt.Printf("%s:\n", label)
    fmt.Printf("  Alloc = %v MiB\n", bToMb(m.Alloc))
    fmt.Printf("  TotalAlloc = %v MiB\n", bToMb(m.TotalAlloc))
    fmt.Printf("  Sys = %v MiB\n", bToMb(m.Sys))
    fmt.Printf("  HeapAlloc = %v MiB\n", bToMb(m.HeapAlloc))
    fmt.Printf("  HeapSys = %v MiB\n", bToMb(m.HeapSys))
    fmt.Printf("  HeapInuse = %v MiB\n", bToMb(m.HeapInuse))
    fmt.Println()
}

func bToMb(b uint64) uint64 {
    return b / 1024 / 1024
}

// unique-examples/effect_without_unique.go
... 

func main() {
    // 创建一些不同的字符串
    distinctStrings := make([]string, numDistinct)
    for i := 0; i < numDistinct; i++ {
        distinctStrings[i] = strings.Repeat(string(rune('A'+i%26)), stringLen)
    }

    // 不使用unique包
    withoutUnique := make([]string, numItems)
    for i := 0; i < numItems; i++ {
        withoutUnique[i] = distinctStrings[i%numDistinct]
    }

    runtime.GC() // 强制GC以确保准确的内存使用统计
    printMemUsage("Without unique")

    runtime.KeepAlive(withoutUnique)
}

...

下面分别运行这两个源码：

$go run effect_with_unique.go
With unique:
  Alloc = 7 MiB
  TotalAlloc = 7 MiB
  Sys = 15 MiB
  HeapAlloc = 7 MiB
  HeapSys = 11 MiB
  HeapInuse = 8 MiB

$go run effect_without_unique.go
Without unique:
  Alloc = 15 MiB
  TotalAlloc = 15 MiB
  Sys = 22 MiB
  HeapAlloc = 15 MiB
  HeapSys = 19 MiB
  HeapInuse = 15 MiB

这个结果清楚地显示了使用unique包后的内存节省。不使用unique包时，每个重复的字符串都会单独分配内存。而使用unique包后，相同的字符串只会分配一次，大大减少了内存使用。在实际应用中，内存节省的效果可能更加显著，特别是在处理大量重复数据（如日志处理、文本分析等）的场景中。