语法 | Tony Bai

三月 23, 2013

指针是C语言中公认的最为强大的语法要素，但同时也是最难理解的语法要素，它曾给程序员带来了无数麻烦和痛苦，以致于在C语言之后诞生的很多新兴语言中我们再也难觅指针的身影了。

下面是一个最简单的C语言指针的例子：
int a = 5;
int *p = &a;

其中p就是一个指针变量。如果C语言中仅仅存在这类指针，那显然指针不会形成“大患”。经常地我们会在代码中看到下面的情形：

int **q = &p;
int ***z = &q;

随着符号'*'个数的增加，C代码的理解复杂度似乎也曾指数级别增长似的。像q、z这样的指向指针的指针(pointer to pointer to …)变量，中文俗称“多级指针”。不过在一些正式的英文C语言教程中，我没能找到其正式的英文说法。在老外的这些书中，它们多被称为pointer to pointer (to pointer to ….)。多级指针的确是很难理解的，特别当与函数、数组等联合在一起使用时。今天在写代码时恰好撞见了多级指针，于是就打算在这里说说对多级指针以及其解引用的一些粗浅理解。

指针究竟是啥？

和普通变量想比，指针变量到底有何不同，究竟何为指针(变量)？我们来看一个例子：

int a = 5;
int *p = &a;

printf("a addr = [%p]\n", &a);
printf("a content = [%d]\n", a);
printf("p addr = [%p]\n", &p);
printf("p content = [%p]\n", p);
printf("*p = [%d]\n", *p);

*p = 6;
printf("after modify, *p = [%d]\n", *p);

编译这个小程序并执行，输出结果如下：

a addr = [0xbfb609b8]
a content = [5]
p addr = [0xbfb609bc]
p content = [0xbfb609b8]
*p = [5]
after modify, *p = [6]

通过两个变量的addr，我们可以看到a、p两个变量都是在栈上分配的变量。不同的是普通整型变量a对应的内存单元(a content)中存储的值为整型值5，是一个数值；而变量p对应的内存单元(p content)中存储的值为0xbfb609b8，是变量a的地址，用栈变量简图可以表示如下：

| …      |
|0xbfb609b8| <- &p [0xbfb609bc]
|5         | <- &a [0xbfb609b8]
| …      |

可以看出指针变量的第一个特点是它是一种以存储其他变量地址为目的的变量。一个T类型的指针变量(一级指针)就是一个存储了某T类型值变量的地址的内存单元。

例子中最后那个输出是对指针的解引用(dereference)操作，指针的解引用操作的结果是得到指针所指的地址上的变量的值。在这个例子中指针所指到内存地址为0xbfb609b8，也就是a变量的位置，因此*p的结果为变量a的值，即5。因此我们得到指针变量的第二个特点：通过对指针的解引用，我们可以获得其指向的内存单元所表示的值。

在例子中，我们看到了这行代码 *p = 6，并发现执行这行代码后，a变量的值变为了6。这就是指针的第三个特点：当解引用作左值时，它可以修改其所指内存地址上变量的值。a被修改后的栈变量分布简图：

| …      |
|0xbfb609b8| <- &p [0xbfb609bc]
|6         | <- &a [0xbfb609b8]
| …      |

二级指针

我们再来分析一下下面的示例程序的输出结果。

int a = 5;
int b = 13;
int *p = &a;
printf("*p = %d\n", *p);
int **q = &p;
(*q) = &b;
printf("*p = %d\n", *p);

根据前面的分析，第一次*p输出时p指向a的地址，对p解引用的结果就是a所在内存单元的值，即5。接下来的代码分析起来就需要谨慎一些了。我们先来看看 int **q = &p这行代码。根据对一级指针的分析，我们可以将int **q理解成(int*) *q，这样q指向的地址就是一个int*型的变量的内存地址，该地址上的值本身也是一个地址值。在这个例子中，(int*) *q = &p; 也就是说q中存储的值就是变量p的地址。通过*q我们可以得到p中存储的地址值(&a)；而若*q作为左值，显然就是修改p中存储的地址值喽，因此(*q) = &b则相当于p = &b，则第二个*p的输出结果为变量b所在内存单元的值，即13。

在修改*q前，栈上内存布局：

在修改*q的值后，栈上内存布局：

| …      |
|0xbf830ec8| <- &q [0xbf830ecc]
|0xbf830ec4| <- &p [0xbf830ec8] /* 通过*q修改 */
|11        | <- &b [0xbf830ec4]
|5         | <- &a [0xbf830ec0]
| …      |

再来分析一下**q的值又是啥呢？有了前面的铺垫：*q <=> p，那**q <=> *(*q) <=> *p，其值自然就明了了，就是b的值。

多级指针

有了一级指针和二级指针的分析打基础，当我们遇到更多*的时候，只是遵循这个方法耐心分析就是了，比如：

int a = 5;
int *p = &a;
int **q = &p;
int ***z = &q;

我们可以对比着前面一、二级指针的理解方法来理解这三个指针p、q和z：
    – 一级指针p自身存储的是整型值变量a的地址，对一级指针解引用(*p)得到的是值变量a的值；*p作左值，修改的是变量a的值；
    – 二级指针q自身存储的是一级整型指针变量p的地址，对二级指针解引用(*q)得到的是一级指针p自身存储的值(a的地址:&a)；*p作左值时，修改的一级指针p的指向；
    – 三级指针z自身存储的是二级整型指针变量q的地址，对三级指针解引用(*z)得到的是二级指针q自身存储的值，也就是p的地址(&p)；对*z再解引用(**z)，相当于得到p自身存储的值，也就是a的地址&a；对**z再解引用，即***z，相当于得到a自身存储的变量值，即5。用一个等价式可以更形象的表达：***z <=> **(*z) <=> **q <=> *(*q) <=> *p <=> 5。
    – 更高级别的指针可依次类推。不过如果再对***z解引用，即****z，那则相当于对整型数5（非地址）进行解引用，会出现编译错误：一元 ‘*’参数类型无效(有‘int’)。

也谈指针运算

二月 23, 2010

0 条评论

指针在C语言中的位置这里就不多说了，这里说一下C的指针运算。指针运算一般针对的是同一连续内存块，不同内存块之间的指针运算无意义，甚至可能导致异常情况。

指针运算主要针对数组，常见的运算类型：+i, -i, ++, –以及 < , >等。

我们以+i操作为例。运算时编译器需要知道一些必要的信息，比如p = p + 1操作时编译器需要知道这个运算后，p这个指针需要移动多少个字节，那这个信息哪里来呢，由指针p所指数据单元的类型来确定。

比如：
int *p; [...] ; p = p + i => p指向int型数据，p加i运算后移动i * sizeof(int)个字节，即i * 4个字节。
char *p; [...] ; p = p + i => p指向char型数据，p加i运算后移动i * sizeof(char)个字节，即i * 1个字节。
struct Foo *p; [...] ; p = p + i => p指向struct Foo型数据，p加i运算后移动i * sizeof(struct Foo)个字节.
char *p[4](<=> (char*)p[4]，可用char **p指向该数组中的某一个元素); [...] ; p = p + i => p指向char*数据，p加i运算后移动i * sizeof(char*)个字节，即i * 4个字节.
char (*p)[4](p是一个指向二维数组的指针，该二维数组的行宽度为char[4]); [...] ; p = p + i => p指向char[4]型数据，p加i运算后移动i * sizeof(char[4])个字节，即i * 4个字节。
int (*p)[7](p是一个指向二维数组的指针，该二维数组的行宽度为int[7]); [...] ; p = p + i => p指向int[7]型数据，p加i运算后移动i* sizeof(int[7])个字节，即i * 28个字节。

再考虑一个稍微复杂些的指针运算：有一个多维数组int a[5][6]，一般取其中某个元素时可采用*(*(a + i) + j)的形式来达到目的。这个指针运算有些复杂，起码不那么一目了然，我们不妨用”代换法”来分析一下:

我们可将int a[5][6]理解为一个拥有5个元素，每个元素是int[6]类型的一维数组，其实若写成(int[6]) a[5]则更好理解(但可惜这不是C语言的语法)，那么(int[6]) *p1则是指向数组(int[6]) a[5]中某个元素的指针,且可进行p1 = a这样的赋值；现在我们换成C语言语法那就是int (*p1)[6]；p1 = a。这样一来我们将二维化为一维，就可以利用前面的规则了。a + i <=> p1 + i，指针移动 i * sizeof(int[6]);

我们让p2 = *(a + i) <=> *(p1 + i)，这样p2同样也变成一维数组(int型一维数组)，p2作为数组名，自然也可作指针操作；p2 + j后，指针再移动 sizeof(int) * j个字节。

综上，*(*(a + i) + j)运算后，指针实际移动了 i * sizeof(int[6]) + j * sizeof(int)个字节。

多维数组的指针运算必要信息是由除最左维度外其他所有维度的长度信息所共同组成的，比如一个三维数组：char a[5][6][7]，匹配该数组的指针类型为char (*p)[6][7]; 二三维度的长度为编译器提供了指针运算的必要信息，这里也提醒我们在将多维数组作为参数传递时务必要小心参数匹配的问题，维度信息不同会导致多维数组与相应的函数形参匹配，比如：

char a[5][6][7]与void func(char a[][7][8])；因维度信息不同而无法匹配。
char a[5][6][7] or char (*p)[6][7]则与void func(char a[5][6][7])/void func(char (*p)[6][7])匹配。