前言
在最近看了APUE的标准IO部分之后感觉对标准IO的缓存太模糊,没有搞明白,APUE中关于缓存的部分一笔带过,没有深究缓存的实现原理,这样一本被吹上天的书为什么不讲透彻呢?今天早上爬起来赶紧找了几篇文章看看,直到发现了这篇博客:http://blog.sina.com.cn/s/blog_6592a07a0101gar7.html。讲的很不错。
一、IO缓存
系统调用:只操作系统提供给用户程序调用的一组接口-------获得内核提供的服务。
- 不带缓存:open read。posix标准,在用户空间没有缓冲,在内核空间还是进行了缓存的。数据-----内核缓存区----磁盘。假设内核缓存区长度为100字节,你调用ssize_t write (int fd,const void * buf,size_t count);写操作时,设每次写入count=10字节,那么你要调用10次这个函数才能把这个缓存区写满,没写满时数据还是在内核缓冲区中,并没有写入到磁盘中,内核缓存区满了之后或者执行了fsync(强制写入硬盘)之后,才进行实际的IO操作,吧数据写入磁盘上。
- 带缓存区:fopen fwrite fget 等,是c标准库中定义的。数据-----流缓存区-----内核缓存区----磁盘。假设流缓存区长度为50字节,内核缓存区100字节,我们用标准c库函数fwrite()将数据写入到这个流缓存中,每次写10字节,需要写5次流缓存区满后调用write()(或调用fflush()),将数据写到内核缓存区,直到内核缓存区满了之后或者执行了fsync(强制写入硬盘)之后,才进行实际的IO操作,吧数据写入磁盘上。标准IO操作fwrite()最后还是要掉用无缓存IO操作write。
以fgetc / fputc 为例,当用户程序第一次调用fgetc 读一个字节时,fgetc 函数可能通过系统调用 进入内核读1K字节到I/O缓冲区中,然后返回I/O缓冲区中的第一个字节给用户,把读写位置指 向I/O缓冲区中的第二个字符,以后用户再调fgetc ,就直接从I/O缓冲区中读取,而不需要进内核 了,当用户把这1K字节都读完之后,再次调用fgetc 时,fgetc 函数会再次进入内核读1K字节 到I/O缓冲区中。在这个场景中用户程序、C标准库和内核之间的关系就像在“Memory Hierarchy”中 CPU、Cache和内存之间的关系一样,C标准库之所以会从内核预读一些数据放 在I/O缓冲区中,是希望用户程序随后要用到这些数据,C标准库的I/O缓冲区也在用户空间,直接 从用户空间读取数据比进内核读数据要快得多。另一方面,用户程序调用fputc 通常只是写到I/O缓 冲区中,这样fputc 函数可以很快地返回,如果I/O缓冲区写满了,fputc 就通过系统调用把I/O缓冲 区中的数据传给内核,内核最终把数据写回磁盘或设备。有时候用户程序希望把I/O缓冲区中的数据立刻 传给内核,让内核写回设备或磁盘,这称为Flush操作,对应的库函数是fflush,fclose函数在关闭文件 之前也会做Flush操作。
虽然write 系统调用位于C标准库I/O缓冲区的底 层,被称为Unbuffered I/O函数,但在write 的底层也可以分配一个内核I/O缓冲区,所以write 也不一定是直接写到文件的,也 可能写到内核I/O缓冲区中,可以使用fsync函数同步至磁盘文件,至于究竟写到了文件中还是内核缓冲区中对于进程来说是没有差别 的,如果进程A和进程B打开同一文件,进程A写到内核I/O缓冲区中的数据从进程B也能读到,因为内核空间是进程共享的, 而c标准库的I/O缓冲区则不具有这一特性,因为进程的用户空间是完全独立的.
#include#include #include #include #include int main(void){ char buf[5]; FILE *myfile = stdin; fgets(buf, 5, myfile); fputs(buf, myfile); return 0;}
buffered I/O中的"buffer"到底是指什么呢?这个buffer在什么地方呢?FILE是什么呢?它的空间是怎么分配的呢 要弄清楚这些问题,就要看看FILE是如何定义和运作的了.(特别说明,在平时写程序时,不用也不要关心FILE是如何定义和运作的,最好不要直接操作它,这里使用它,只是为了说明buffered IO)下面的这个是glibc给出的FILE的定义,它是实现相关的,别的平台定义方式不同.
struct _IO_FILE {int _flags;#define _IO_file_flags _flagschar* _IO_read_ptr;char* _IO_read_end;char* _IO_read_base;char* _IO_write_base;char* _IO_write_ptr;char* _IO_write_end;char* _IO_buf_base;char* _IO_buf_end;char *_IO_save_base;char *_IO_backup_base;char *_IO_save_end;struct _IO_marker *_markers;struct _IO_FILE *_chain;int _fileno;};
上面的定义中有三组重要的字段:
1.char* _IO_read_ptr;char* _IO_read_end;char* _IO_read_base;2.char* _IO_write_base;char* _IO_write_ptr;char* _IO_write_end;3.char* _IO_buf_base;char* _IO_buf_end;
#include#include #include #include #include int main(void){ char buf[5]; FILE *myfile =stdin; printf("before reading/n"); printf("read buffer base %p/n", myfile->_IO_read_base); printf("read buffer length %d/n", myfile->_IO_read_end - myfile->_IO_read_base); printf("write buffer base %p/n", myfile->_IO_write_base); printf("write buffer length %d/n", myfile->_IO_write_end - myfile->_IO_write_base); printf("buf buffer base %p/n", myfile->_IO_buf_base); printf("buf buffer length %d/n", myfile->_IO_buf_end - myfile->_IO_buf_base); printf("/n"); fgets(buf, 5, myfile); fputs(buf, myfile); printf("/n"); printf("after reading/n"); printf("read buffer base %p/n", myfile->_IO_read_base); printf("read buffer length %d/n", myfile->_IO_read_end - myfile->_IO_read_base); printf("write buffer base %p/n", myfile->_IO_write_base); printf("write buffer length %d/n", myfile->_IO_write_end - myfile->_IO_write_base); printf("buf buffer base %p/n", myfile->_IO_buf_base); printf("buf buffer length %d/n", myfile->_IO_buf_end - myfile->_IO_buf_base); return 0;}
可以看到,在读操作之前,myfile的缓冲区是没有被分配的,在一次读之后,myfile的缓冲区才被分配.这个缓冲区既不是内核中的缓冲区,也不是用户分配的缓冲区,而是有用户进程空间中的由buffered I/O系统负责维护的缓冲区.(当然,用户可以可以维护该缓冲区,这里不做讨论了)
#include#include #include #include #include int main(void){ char buf[5]; char *cur; FILE *myfile; myfile = fopen("bbb.txt", "r"); printf("before reading, myfile->_IO_read_ptr: %d/n", myfile->_IO_read_ptr - myfile->_IO_read_base); fgets(buf, 5, myfile); //仅仅读4个字符 cur = myfile->_IO_read_base; while (cur < myfile->_IO_read_end) //实际上读满了这个缓冲区 { printf("%c",*cur); cur++; } printf("/nafter reading, myfile->_IO_read_ptr: %d/n", myfile->_IO_read_ptr - myfile->_IO_read_base); return 0;}
上面提到的bbb.txt文件的内容是由很多行的"123456789"组成上例中,fgets(buf, 5, myfile); 仅仅读4个字符,但是,缓冲区已被写满,但是_IO_read_ptr却向前移动了5位,下次再次调用读操作时,只要要读的位数不超过myfile->_IO_read_end - myfile->_IO_read_ptr那么就不需要再次调用系统调用read,只要将数据从myfile的缓冲区拷贝到buf即可(从myfile->_IO_read_ptr开始拷贝)
#include#include #include #include #include int main(void){ char buf[2048]={ 0}; int i; FILE *myfile; myfile = fopen("aaa.txt", "r+"); i= 0; while (i<2048) { fwrite(buf+i, 1, 512, myfile); i +=512; //注释掉这句则可以写入aaa.txt myfile->_IO_write_ptr = myfile->_IO_write_base; printf("%p write buffer base/n", myfile->_IO_write_base); printf("%p buf buffer base /n", myfile->_IO_buf_base); printf("%p read buffer base /n", myfile->_IO_read_base); printf("%p write buffer ptr /n", myfile->_IO_write_ptr); printf("/n"); } return 0;}
上面这个是关于全缓冲写的例子.全缓冲时,只有当标准I/O自动flush(比如当缓冲区已满时)或者手工调用fflush时,标准I/O才会调用一次write系统调用.例子中,fwrite(buf+i, 1, 512, myfile);这一句只是将buf+i接下来的512个字节写入缓冲区,由于缓冲区未满,标准I/O并未调用write.此时,myfile->_IO_write_ptr = myfile->_IO_write_base;会导致标准I/O认为没有数据写入缓冲区,所以永远不会调用write,这样aaa.txt文件得不到写入.注释掉myfile->_IO_write_ptr = myfile->_IO_write_base;前后,看看效果
#include#include int main(void){ char buf[5]; char buf2[10]; fgets(buf, 5, stdin); //第一次输入时,超过5个字符 puts(stdin->_IO_read_ptr);//本句说明整行会被一次全部读入缓冲区, //而非仅仅上面需要的个字符 stdin->_IO_read_ptr = stdin->_IO_read_end; //标准I/O会认为缓冲区已空,再次调用read //注释掉,再看看效果 printf("/n"); puts(buf); fgets(buf2, 10, stdin); puts(buf2); return 0;}
上例中, fgets(buf, 5, stdin); 仅仅需要4个字符,但是,输入行中的其他数据也被写入缓冲区,但是_IO_read_ptr向前移动了5位,下次再次调用fgets操作时,就不需要再次调用系统调用read,只要将数据从stdin的缓冲区拷贝到buf2即可(从stdin->_IO_read_ptr开始拷贝)stdin->_IO_read_ptr = stdin->_IO_read_end;会导致标准I/O会认为缓冲区已空,再次fgets则需要再次调用read.比较一下将该句注释掉前后的效果
#include#include #include #include #include char buf[5]={ '1','2', '3', '4', '5'}; //最后一个不要是/n,是/n的话,标准I/O会自动flush的 //这是行缓冲跟全缓冲的重要区别void writeLog(FILE *ftmp){ fprintf(ftmp, "%p write buffer base/n", stdout->_IO_write_base); fprintf(ftmp, "%p buf buffer base /n", stdout->_IO_buf_base); fprintf(ftmp, "%p read buffer base /n", stdout->_IO_read_base); fprintf(ftmp, "%p write buffer ptr /n", stdout->_IO_write_ptr); fprintf(ftmp, "/n");}int main(void){ int i; FILE *ftmp; ftmp = fopen("ccc.txt", "w"); i= 0; while (i<4) { fwrite(buf, 1, 5, stdout); i++; *stdout->_IO_write_ptr++ = '/n';//可以单独把这句打开,看看效果 //getchar();//getchar()会标准I/O将缓冲区输出 //打开下面的注释,你就会发现屏幕上什么输出也没有 //stdout->_IO_write_ptr = stdout->_IO_write_base; writeLog(ftmp); //这个只是为了查看缓冲区指针的变化 } return 0;}
这个例子将将FILE结构中指针的变化写入的文件ccc.txt,
运行后可以有兴趣的话,可以看看. 上面这个是关于行缓冲写的例子.stdout->_IO_write_ptr = stdout->_IO_write_base;会使得标准I/O认为缓冲区是空的,从而没有任何输出.可以将上面程序中的注释分别去掉,看看运行结果 行缓冲时,下面3个条件之一会导致缓冲区立即被flush 1. 缓冲区已满 2. 遇到一个换行符;比如将上面例子中buf[4]改为'/n'时 3. 再次要求从内核中得到数据时;比如上面的程序加上getchar()会导致马上输出 行缓冲写的时候: _IO_write_base始终指向缓冲区的开始 _IO_write_end始终指向缓冲区的开始 _IO_write_ptr始终指向缓冲区中已被用户写入的字符的下一个 flush的时候,将_IO_write_base和_IO_write_ptr之间的字符通过系统调用write写入内核 四、无缓冲#include <stdlib.h>#include <stdio.h>#include <sys/types.h>#include <sys/stat.h>#include <fcntl.h>int main(void){ fputs("stderr", stderr); printf("%d/n", stderr->_IO_buf_end - stderr->_IO_buf_base); return 0;}
对无缓冲的流的每次读写操作都会引起系统调用
#include#include #include #include #include int main(void){ char buf[5]; char buf2[10]; fgets(buf, sizeof(buf), stdin);//输入要于4个,少于13个字符才能看出效果 puts(buf); //交替注释下面两行 //stdin->_IO_read_end = stdin->_IO_read_ptr+1; stdin->_IO_read_end = stdin->_IO_read_ptr + sizeof(buf2)-1; fgets(buf2, sizeof(buf2), stdin); puts(buf2); if (feof(stdin)) printf("input end/n"); return 0;}