标签 GCC 下的文章

也谈字节序问题

一次Sun SPARC到Intel X86的平台移植让我们的程序遭遇了“字节序问题”,既然遇到了也就不妨深入的学习一下。

一、字节序定义
字节序,顾名思义字节的顺序,再多说两句就是大于一个字节类型的数据在内存中的存放顺序(一个字节的数据当然就无需谈顺序的问题了)。

其实大部分人在实际的开发中都很少会直接和字节序打交道。唯有在跨平台以及网络程序中字节序才是一个应该被考虑的问题。

在所有的介绍字节序的文章中都会提到字节序分为两类:Big-Endian和Little-Endian。引用标准的Big-Endian和Little-Endian的定义如下:
a) Little-Endian就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。
b) Big-Endian就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。
c) 网络字节序:TCP/IP各层协议将字节序定义为Big-Endian,因此TCP/IP协议中使用的字节序通常称之为网络字节序。

其实我在第一次看到这个定义时就很糊涂,看了几个例子后也很是朦胧。什么高/低地址端?又什么高低位?翻阅了一些资料后略有心得。

二、高/低地址与高低字节
首先我们要知道我们C程序映像中内存的空间布局情况:在《C专家编程》中或者《Unix环境高级编程》中有关于内存空间布局情况的说明,大致如下图:
———————– 最高内存地址 0xffffffff
 | 栈底
 .
 .              栈
 .
  栈顶
———————–
 |
 |
\|/

NULL (空洞) 

/|\
 |
 |
———————–
                堆
———————–
未初始化的数据
—————-(统称数据段)
初始化的数据
———————–
正文段(代码段)
———————– 最低内存地址 0×00000000

以上图为例如果我们在栈上分配一个unsigned char buf[4],那么这个数组变量在栈上是如何布局的呢[注1]?看下图:
栈底 (高地址)
———-
buf[3]
buf[2]
buf[1]
buf[0]
———-
栈顶 (低地址)

现在我们弄清了高低地址,接着我来弄清高/低字节,如果我们有一个32位无符号整型0×12345678(呵呵,恰好是把上面的那4个字节buf看成一个整型),那么高位是什么,低位又是什么呢?其实很简单。在十进制中我们都说靠左边的是高位,靠右边的是低位,在其他进制也是如此。就拿0×12345678来说,从高位到低位的字节依次是0×12、0×34、0×56和0×78。

高低地址和高低字节都弄清了。我们再来回顾一下Big-Endian和Little-Endian的定义,并用图示说明两种字节序:
以unsigned int value = 0×12345678为例,分别看看在两种字节序下其存储情况,我们可以用unsigned char buf[4]来表示value:
Big-Endian: 低地址存放高位,如下图:
栈底 (高地址)
—————
buf[3] (0×78) — 低位
buf[2] (0×56)
buf[1] (0×34)
buf[0] (0×12) — 高位
—————
栈顶 (低地址)

Little-Endian: 低地址存放低位,如下图:
栈底 (高地址)
—————
buf[3] (0×12) — 高位
buf[2] (0×34)
buf[1] (0×56)
buf[0] (0×78) — 低位
—————
栈顶 (低地址)

在现有的平台上Intel的X86采用的是Little-Endian,而像Sun的SPARC采用的就是Big-Endian。

三、例子
测试平台: Sun SPARC Solaris 9和Intel X86 Solaris 9
我们的例子是这样的:在使用不同字节序的平台上使用相同的程序读取同一个二进制文件的内容。
生成二进制文件的程序如下:
/* gen_binary.c */
int main() {
        FILE    *fp = NULL;
        int     value = 0×12345678;
        int     rv = 0;

        fp = fopen("temp.dat", "wb");
        if (fp == NULL) {
                printf("fopen error\n");
                return -1;
        }

        rv = fwrite(&value, sizeof(value), 1, fp);
        if (rv != 1) {
                printf("fwrite error\n");
                return -1;
        }

        fclose(fp);
        return 0;
}

读取二进制文件的程序如下:
int main() {
        int             value   = 0;
        FILE         *fp     = NULL;
        int             rv      = 0;
        unsigned        char buf[4];

        fp = fopen("temp.dat", "rb");
        if (fp == NULL) {
                printf("fopen error\n");
                return -1;
        }

        rv = fread(buf, sizeof(unsigned char), 4, fp);
        if (rv != 4) {
                printf("fread error\n");
                return -1;
        }

        memcpy(&value, buf, 4); // or value = *((int*)buf);
        printf("the value is %x\n", value);

        fclose(fp);
        return 0;
}

测试过程:
(1) 在SPARC平台下生成temp.dat文件
在SPARC平台下读取temp.dat文件的结果:
the value is 12345678

在X86平台下读取temp.dat文件的结果:
the value is 78563412

(1) 在X86平台下生成temp.dat文件
在SPARC平台下读取temp.dat文件的结果:
the value is 78563412

在X86平台下读取temp.dat文件的结果:
the value is 12345678

[注1]
buf[4]在栈的布局我也是通过例子程序得到的:
int main() {
        unsigned char buf[4];

        printf("the buf[0] addr is %x\n", buf);
        printf("the buf[1] addr is %x\n”, &buf[1]);

        return 0;
}
output:
SPARC平台:
the buf[0] addr is ffbff788
the buf[1] addr is ffbff789
X86平台:
the buf[0] addr is 8047ae4
the buf[1] addr is 8047ae5

两个平台都是buf[x]所在地址高于buf[y] (x > y)。

APR源代码分析-进程篇

Apache Server的进程调度一直为人所称道,Apache 2.0推出的APR对进程进行了封装,特别是Apache 2.0的MPM(Multiple Process Management)框架就是以APR封装的进程为基础的,下面就让我们一起来探索一下APR的进程封装吧(以Unix平台为例)。

APR进程封装源代码的位置在$(APR_HOME)/threadproc目录下,本篇blog着重分析unix子目录下的proc.c文件内容,其相应头文件为$(APR_HOME)/include/apr_thread_proc.h。

一、APR进程概述
APR进程封装采用了传统的fork-exec配合方式(spawn),即父进程在fork出子进程后继续执行其自己的代码,而子进程调用exec函数加载新的程序映像到其地址空间,执行新的程序。我们先来看看使用APR创建一个新的进程的流程,然后再根据流程做细节分析:
apr_proc_t   newproc;
apr_pool_t   *p;

apr_status_t rv;
const char *args[2];
apr_procattr_t *attr;

/* 初始化APR内部使用的内存 */
rv = apr_pool_initialize();
HANDLE_RTVAL(apr_pool_initialize, rv);[注1]

rv = apr_pool_create(&p, NULL);
HANDLE_RTVAL(apr_pool_create, rv);

/* 创建并初始化新进程的属性 */
rv = apr_procattr_create(&attr, p);
HANDLE_RTVAL(apr_procattr_create, rv);

rv = apr_procattr_io_set(attr, APR_FULL_BLOCK, APR_FULL_BLOCK,
                             APR_NO_PIPE); /* 可选 */
HANDLE_RTVAL(apr_procattr_io_set, rv);

rv = apr_procattr_dir_set(attr, "startup_path"); /* 可选 */
HANDLE_RTVAL(apr_procattr_dir_set, rv);

rv = apr_procattr_cmdtype_set(attr, APR_PROGRAM); /* 可选 */
HANDLE_RTVAL(apr_procattr_cmdtype_set, rv);

… … /* 其他设置进程属性的函数 */

/* 创建新进程 */
args[0] = "proc_child";
args[1] = NULL;
rv = apr_proc_create(&newproc, "your_progname", args, NULL, attr, p);
HANDLE_RTVAL(apr_proc_create, rv);

/* 等待子进程结束 */
rv = apr_proc_wait(&newproc, NULL, NULL, APR_WAIT);
HANDLE_RTVAL(apr_proc_wait, rv);

二、APR procattr创建
在我们平时的Unix进程相关编程时,我们大致会接触两类进程操作函数:进程创建函数(如fork和exec等)和进程属性操作函数(getpid、chdir等),APR将进程的相关属性信息封装到apr_procattr_t结构体中,我们来看看这个重要的结构体定义:(这里只列出Unix下可用的属性)

/* in $(APR_HOME)/include/arch/unix/apr_arch_threadproc.h */
struct apr_procattr_t {
    /* PART 1 */
    apr_pool_t *pool;

    /* PART 2 */
    apr_file_t *parent_in;
    apr_file_t *child_in;
    apr_file_t *parent_out;
    apr_file_t *child_out;
    apr_file_t *parent_err;
    apr_file_t *child_err;

    /* PART 3 */
    char *currdir;
    apr_int32_t cmdtype;
    apr_int32_t detached;

    /* PART 4 */
    struct rlimit *limit_cpu;
    struct rlimit *limit_mem;
    struct rlimit *limit_nproc;
    struct rlimit *limit_nofile;

    /* PART 5 */
    apr_child_errfn_t *errfn;
    apr_int32_t errchk;

    /* PART 6 */
    apr_uid_t   uid;
    apr_gid_t   gid;
};
我这里将apr_procattr_t包含的字段大致分为6部分,下面逐一说明:
[PART 1]
在上一篇关于APR的blog中说过,大部分的APR类型中都会有一个apr_pool_t类型字段,用于APR内部的内存管理,此结构也无例外。该字段用来标识procattr在哪个pool中分配的内存。

[PART 2]
进程不是孤立存在的,进程也是有父有子的。父子进程间通过传统的匿名pipe进行通信。在apr_procattr_io_set(attr, APR_FULL_BLOCK, APR_FULL_BLOCK, APR_FULL_BLOCK)调用后,我们可以用下面的图来表示这些字段的状态:[注3]

parent_in ———————————————-
                                                                       \|/
                     ——————————————
                     filedes[0]     “in_pipe”       filedes[1]  
                     ——————————————
                    /|\
child_in ——

parent_out —-
                     \|/
                     ——————————————-
                     filedes[0]     “out_pipe”       filedes[1]  
                     ——————————————-
                                                                          /|\
child_out ———————————————-

parent_err —-
                     \|/
                     ——————————————-
                     filedes[0]     “err_pipe”       filedes[1]  
                     ——————————————-
                                                                        /|\
child_err ————————————————

还有一点值得注意的是apr_procattr_io_set调用apr_file_pipe_create创建pipe的时候,为相应的in/out字段注册了cleanup函数apr_unix_file_cleanup,apr_unix_file_cleanup在相应的in/out字段的pool销毁时被调用,在后面的apr_proc_create时还会涉及到这块儿。

[PART 3]
进程的一些常规属性。
currdir标识新进程启动时的工作路径(执行路径),默认时为和父进程相同;
cmdtype标识新的子进程将执行什么类型的命令;共5种类型,默认为APR_PROGRAM,定义见[注2]
detached标识新进程是否为分离后台进程,默认为前台进程。

[PART 4]
这4个字段标识平台对进程资源的限制,一般我们接触不到。struct rlimit的定义在/usr/include/sys/resource.h中。

[PART 5]
errfn为一函数指针,原型为typedef void (apr_child_errfn_t)(apr_pool_t *proc, apr_status_t err, const char *description); 这个函数指针如果被赋值,那么当子进程遇到错误退出前将调用该函数。
errchk一个标志值,用于告知apr_proc_create是否对子进程属性进行检查,如检查curdir的access属性等。

[PART 6]
用户ID和组ID,用于检索允许该用户所使用的权限。

三、APR proc创建
APR proc的描述结构为apr_proc_t:
typedef struct apr_proc_t {
    /** The process ID */
    pid_t pid;
    /** Parent's side of pipe to child's stdin */
    apr_file_t *in;
    /** Parent's side of pipe to child's stdout */
    apr_file_t *out;
    /** Parent's side of pipe to child's stdouterr */
    apr_file_t *err;
} apr_proc_t;
结构中有很清晰明了的注释,这里就不再说了。
创建一个新的进程的接口为apr_proc_create,其参数也都很简单。前面说过apr_proc_create先fork出一个子进程,众所周知fork后子进程是父进程的复制品[注4],然后子进程再通过exec函数加载新的程序映像,并开始执行新的程序。这里分析一下apr_proc_create的执行流程,其伪码如下:
apr_proc_create
{
   if (attr->errchk)
      对attr做有效性检查,让错误尽量发生在parent process中,而不是留给child process; —-(1)

   fork子进程;

   { /* 在子进程中 */
      清理一些不必要的从父进程继承下来的描述符等,为
      exec提供一个“干净的”环境;——(2)

      关闭attr->parent_in、parent_out和parent_err,
      并分别重定向attr->child_in、child_out和child_err为
      STDIN_FILENO、STDOUT_FILENO和STDERR_FILENO; —–(3)

      判断attr->cmdtype,选择执行exec函数; ——(4)
   }

   /* 在父进程中 */
   关闭attr->child_in、child_out和child_err;
}

下面针对上述伪码进行具体分析:
(1) 有效性检查
attr->errchk属性可以通过apr_procattr_error_check_set函数在apr_proc_create之前设置。一旦设置,apr_proc_create就会在fork子进程前对procattr的有效性进行检查,比如attr->curdir的访问属性(利用access检查)、progname文件的访问权限检查等。这些的目的就是一个:“让错误发生在fork前,不要等到在子进程中出错”。

(2) 清理“不必要的”继承物
由于子进程复制了父进程的地址空间,随之而来的还包含一些“不必要”的“垃圾”。为了给exec提供一个“干净的”环境,在exec之前首先要做一下必要的清理,APR使用apr_pool_cleanup_for_exec来完成这项任务。apr_pool_cleanup_for_exec究竟做了些什么呢?这涉及到了apr_pool的设计,这里仅仅作简单说明。apr_pool_cleanup_for_exec通过pool内部的global_pool搜索其子结点,并逐一递归cleanup,这里的cleanup并不释放任何内存,也不flush I/O Buffer,仅是调用结点注册的相关cleanup函数,这里我们可以回顾一下apr_procattr_io_set调用,在创建相关pipe时就为相应的in/out/err描述符注册了cleanup函数。同样就是因为这点,子进程在调用apr_pool_cleanup_for_exec之前,首先要kill掉(这里理解就是去掉相关文件描述符上的cleanup注册函数)这些注册函数。防止相关pipe的描述符被意外关闭。

(3) 建立起与父进程“对话通道”
父进程在创建procattr时就建立了若干个pipe,fork后子进程继承了这些。为了关掉一些不必要的描述符和更好的和父进程通讯,子进程作了一些重定向的工作,这里用2副图来表示重定向前后的差别:(图中显示的是子进程关闭parent_in/out/err三个描述符后的文件描述表)

重定向前:

子进程文件描述表
———————–|
[0] STDIN_FILENO |
———————–|
[1] STDOUT_FILENO|
———————–|
[2] STDERR_FILENO|
———————–|
[3] child_in.fd | —-> in_pipe的filedes[0]
—————–|
[4] child_out.fd| —-> out_pipe的filedes[1]
—————–|
[5] child_err.fd| —-> err_pipe的filedes[1]
—————–|

重定向后:

——————|
[0] child_in.fd  | —-> in_pipe的filedes[0]
——————|
[1] child_out.fd | —-> out_pipe的filedes[1]
——————|
[2] child_err.fd | —-> err_pipe的filedes[1]
——————|

为了能更好的体现出“对话通道”的概念,这里再画出父进程再关闭ttr->child_in、child_out和child_err后的文件描述表:
父进程文件描述表
———————–|
[0] STDIN_FILENO  |
———————–|
[1] STDOUT_FILENO |
————————|
[2] STDERR_FILENO |
——————-|
[3] parent_in.fd  | —-> in_pipe的filedes[1]
——————-|
[4] parent_out.fd | —-> out_pipe的filedes[0]
——————-|
[5] parent_err.fd | —-> err_pipe的filedes[0]
——————-|

(4) 启动新的程序
根据APR proc的设计,子进程在被fork出来后,将根据procattr的cmdtype等属性信息决定调用哪种exec函数。当子进程调用一种exec函数时,子进程将完全由新程序代换,而新程序则从其main函数开始执行(与fork不同,fork返回后子进程从fork点开始往下执行)。因为调用exec并不创建新进程,所以前后的进程ID并未改变。exec只是用另一个新程序替换了当前进程的正文、数据、堆和栈段。这里不详述这几种函数的差别,在参考资料中有相关描述[注5]。

四、总结
简单分析了一下APR的进程封装,APR的源代码注释很详尽,很多细节可以直接察看源码。

[注1]
#define HANDLE_RTVAL(func, rv) do { \
 if (rv != APR_SUCCESS) { \
  printf("%s executes error!\n", #func); \
  return rv; \
 } \
} while(0)

[注2]
typedef enum {
    APR_SHELLCMD,           /* use the shell to invoke the program */
    APR_PROGRAM,            /* invoke the program directly, no copied env */
    APR_PROGRAM_ENV,        /* invoke the program, replicating our environment */
    APR_PROGRAM_PATH,       /* find program on PATH, use our environment */
    APR_SHELLCMD_ENV        /* use the shell to invoke the program, replicating our environment */
} apr_cmdtype_e;

[注3]
xx_in/xx_out都是相对于child process来说的,xx_in表示通过该描述符child process从in_pipe读出parent process写入in_pipe的数据;xx_out表示通过该描述符child process将数据写入out_pipe供parent process使用;xx_err则是child process将错误信息写入err_pipe供parent process使用。

[注4]
fork后子进程和父进程的同和异
同:
子进程从父进程那继承了
– 父进程已打开的文件描述符;
– 实际用户ID、实际组ID、有效用户ID、有效组ID;
– 添加组ID;
– 进程组ID;
– 对话期ID;
– 控制终端;
– 设置用户ID标志和设置组ID标志;
– 当前工作目录;
– 根目录;
– 文件方式创建屏蔽字;
– 信号屏蔽和排列;
– 对任一打开文件描述符的在执行时关闭标志;
– 环境;
– 连接的共享存储段;
– 资源限制。

异:
– fork的返回值;
– 进程ID;
– 不同的父进程ID;
– 子进程的tms_utime, tms_stime, tms_cutime以及tme_ustime设置为0;
– 父进程设置的锁,子进程不继承;
– 子进程的未决告警被清除;
– 子进程的未决信号集设置为空集。

[注5]
这里引用《Unix环境高级编程》中关于如何区分和记忆exec函数族的方法:“这六个exec函数的参数很难记忆。函数名中的字符会给我们一些帮助。字母p表示该函数取filename作为参数,并且用PATH环境变量寻找可执行文件。字母l表示该函数取一个参数列表,它与字母v互斥。v表示该函数取一个argv[]。最后,字母e表示该函数取envp[] 数组,而不使用当前环境。”

参考资料:
1、《Unix环境高级编程
2、《Unix系统编程》

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言精进之路1 Go语言精进之路2 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats