APR源代码分析-文件IO篇
文件I/O在Unix下占据着非常重要的地位,曾有一句经典语句绝对可以说明file在Unix下的重要性,That is "In UNIX, everything is a file",APR就是本着这个思想对Unix文件I/O进行了再一次的抽象封装,以提供更为强大和友善的文件I/O接口。
APR File I/O源代码的位置在$(APR_HOME)/file_io目录下,本篇blog着重分析unix子目录下的相关.c文件内容,其相应头文件为$(APR_HOME)/include/apr_file_io.h和apr_file_info.h。
一、APR File I/O介绍
APR用了"不小的篇幅"来"描述"文件I/O,在$(APR_HOME)/file_io/unix目录下,你会看到多个.c文件,每个.c都是一类文件I/O操作。比如:
open.c — 封装了文件的打开、关闭、改名和删除等操作;
readwrite.c — 顾名思义,它里面包含了文件的读写操作;
pipe.c — 包含了pipe相关操作。
还有许多这里不多说,由于文件I/O操作复杂,我们下面将仅挑出最常用的文件I/O操作进行分析。
二、基本APR I/O
APR定义了apr_file_t类型来表示广义的文件。先来看一下这个核心数据结构的“模样”:
/* in apr_arch_file_io.h */
struct apr_file_t {
apr_pool_t *pool;
int filedes;
char *fname;
apr_int32_t flags;
int eof_hit;
int is_pipe;
apr_interval_time_t timeout;
int buffered;
enum {BLK_UNKNOWN, BLK_OFF, BLK_ON } blocking;
int ungetchar; /* Last char provided by an unget op. (-1 = no char)*/
#ifndef WAITIO_USES_POLL
/* if there is a timeout set, then this pollset is used */
apr_pollset_t *pollset;
#endif
/* Stuff for buffered mode */
char *buffer;
int bufpos; /* Read/Write position in buffer */
unsigned long dataRead; /* amount of valid data read into buffer */
int direction; /* buffer being used for 0 = read, 1 = write */
unsigned long filePtr; /* position in file of handle */
#if APR_HAS_THREADS
struct apr_thread_mutex_t *thlock;
#endif
};
在这个数据结构中有些字段的含义一目了然,如filedes、fname、is_pipe等,而有些呢即使看了注释也不能够马上了解其真正的含义,这就需要在阅读源码时来体会。
1、apr_file_open
ANSI C标准库和Unix系统库函数都提供对“打开文件”这个操作语义的支持。他们提供的接口很相似,参数一般都为“文件名+打开标志位+权限标志位”,apr_file_open也不能忽略习惯的巨大力量,也提供了类似的接口如下:
APR_DECLARE(apr_status_t) apr_file_open(apr_file_t **new,
const char *fname,
apr_int32_t flag,
apr_fileperms_t perm,
apr_pool_t *pool);
其中fname、flag和perm三个参数你应该很眼熟吧:)。每个封装都有自定义的一些标志宏,这里也不例外,flag和perm参数都需要用户传入APR自定义的一些宏组合,不过由于这些宏的可读性都很好,不会成为你使用过程的绊脚石。由于apr_file_open操作是其他操作的基础所以这里作简单分析,还是采用老办法伪码法:
apr_file_open
{
“打开标志位”转换;—–(1)
“权限标志位”转换;—–(2)
调用Unix原生API打开文件;
设置apr_file_t变量相关属性值;——(3)
}
(1) 由于上面说了,APR定义了自己的“文件打开标志位”,所以在apr_file_open的开始需要将这些专有的“文件打开标志位”转换为Unix平台通用的“文件打开标志位”;
(2) 同(1)理,专有的“权限标志位”需要转换为Unix平台通用的“权限标志位”;
(3) APR file I/O封装支持非阻塞I/O带超时等待以及缓冲I/O,默认情况下为阻塞的,是否缓冲可通过“文件打开标志位”设置。一旦设置为缓冲I/O,则apr_file_open会在pool中开辟大小为APR_FILE_BUFSIZE(4096)的缓冲区供使用。
2、apr_file_read/apr_file_write
该两个接口的看点是其缓冲区管理(前提:在apr_file_open该文件时指定了是Buffer I/O及非阻塞I/O带超时等待)。还有一点就是通过这两个接口的实现我们可以了解到上面提到的apr_file_t中某些“晦涩”字段的真正含义。
(1) 带缓冲I/O
这里的缓冲是APR自己来管理的,带缓冲的好处很简单,即减少直接操作文件的次数,提高I/O性能。要知道无论lseek还是read/write都是很耗时的,尽可能的减少直接I/O操作次数,会带来性能上明显的改善。这里将用图示说明缓冲区与文件的对应关系,以帮助理解APR缓冲I/O:
thefile->filePtr
|
0 \|/ 文件末尾
———————————————–
/////////////////// filedes (文件)
———————————————–
/ \
/ \
/ \
0|/_ _\| APR_FILE_BUFSIZE
———————————————–
//////////////////////// (缓冲区)
\\\\\\\\\\
———————————————–
/|\ /|\ /|\
| | |
| | thefile->dataRead
| thefile->bufpos
thefile->buffer
说明:"//////" — 表示从文件读到缓冲区的数据;
"\\\\\\" — 表示从用户已从缓冲区读出的数据。
thefile->bufpos : 缓冲区中的读写位置
thefile->dataRead: 标识缓冲区从文件读取的数据的大小
thefile->fileptr: 标识文件本身被读到什么位置
读写切换:如果先读后写,则每次写的时候都要重新定位文件指针到上次读的结尾处;如果先写后读,则每次读前都要flush缓冲区。
(2)非阻塞I/O带超时等待
这里分析下面一段apr_file_read的代码:
do {
rv = read(thefile->filedes, buf, *nbytes);
} while (rv == -1 && errno == EINTR); ————–(a)
#ifdef USE_WAIT_FOR_IO
if (rv == -1 &&
(errno == EAGAIN || errno == EWOULDBLOCK) &&
thefile->timeout != 0) {
apr_status_t arv = apr_wait_for_io_or_timeout(thefile, NULL, 1); ——(b)
if (arv != APR_SUCCESS) {
*nbytes = bytes_read;
return arv;
}
else {
do {
rv = read(thefile->filedes, buf, *nbytes);
} while (rv == -1 && errno == EINTR);
}
}
#endif
(a) 第一个do-while块:之所以使用一个do-while块是为了当read操作被信号中断后重启read操作;
(b) 一旦文件描述符设为非阻塞,(a)则瞬间返回,一旦(a)并未读出数据,则rv = -1并且errno被设置为errno = EAGAIN,这时开始带超时的等待该文件描述符I/O就绪。这里的apr_wait_for_io_or_timeout使用了I/O的多路复用技术Poll,在后面的APR分析中会详细理解之。apr_file_t中的timeout字段就是用来做超时等待的。
3、apr_file_close
该接口主要完成的工作为刷新缓冲区、关闭文件描述符、删除文件(如果设置了APR_DELONCLOSE标志位)和清理Pool中内存的工作,这里不详述了。
三、总结
复杂的文件I/O,让我们通过三言两语就说完了。大家慢慢体会,看看世界著名开源项目的源代码,收获是颇丰的,不妨尝试一下。
© 2005, bigwhite. 版权所有.
Related posts:
从Apache的文件IO来看,最大能处理的数据好像只能是APR_FILE_BUFSIZE大小,不知道如果超出了这个大小会怎么处理。
我最近也在分析Apache的源代码,不知道能否交流,我的QQ:25637773
TO tingya: 已经回复邮件给你了。