当前位置：首页 > 文章列表 > 文章 > linux > Linux文件IO基础详解与使用技巧

Linux文件IO基础详解与使用技巧

2025-07-02 18:47:56 0浏览收藏

从现在开始，我们要努力学习啦！今天我给大家带来《Linux基础文件IO详解》，感兴趣的朋友请继续看下去吧！下文中的内容我们主要会涉及到等等知识点，如果在阅读本文过程中有遇到不清楚的地方，欢迎留言呀！我们一起讨论，一起学习！

前言

无论是日常使用还是系统管理，文件是Linux系统中最核心的概念之一。对于初学者来说，理解文件是如何被创建、读取、写入以及存储的，是掌握Linux的必经之路。本文将深入探讨Linux文件IO的基础知识，从最基本的文件操作命令到系统调用，带你一步步揭开文件IO的神秘面纱。

一、C语言文件接口回顾

在学习Linux系统级文件操作之前，我们可以先回顾一下C语言文件接口：

二、系统级文件IO接口

相比语言层面的文件操作函数，系统级文件IO接口更加接近底层。实际上，语言层的文件接口对系统级接口进行了封装，屏蔽了底层操作系统的复杂性。并且，不同的操作系统，提供的系统级文件接口也不同，语言层针对不同操作系统进行不同的封装，可以使用户无需在意操作系统差异，提高了跨平台性。接下来给大家介绍几个常用的Linux下系统文件接口。

文件的打开和关闭open

open是一个系统调用，用于打开或创建一个磁盘级文件。它的函数原型如下：

代码语言：javascript代码运行次数：0运行复制

#include #include #include int open(const char *pathname, int flags);int open(const char *pathname, int flags, mode_t mode);

参数pathname：要打开的文件路径（用字符串表示）

参数flags：表示打开文件的方式。可传入的参数有如下几种宏：

O_RDONLY：只读模式打开文件。O_WRONLY：只写模式打开文件。O_RDWR：读写模式打开文件。O_CREAT：如果文件不存在，则创建文件（此时需要传第三个参数）。O_TRUNC：如果文件已存在，清空其内容。O_APPEND：写入时追加到文件末尾。

不难发现，上述的某些设定是可以同时存在（例如只写打开时，如果文件不存在可以设定创建文件，如果已经存在则清空），因此这些参数可以自行选择同时传入（例如O_WRONLY | O_CREAT | O_TRUNC）。为什么可以用按位或的方式传入多个参数呢？其实是由位掩码实现的：

Linux的很多系统调用都通过这种使用按位与的方式支持传入多个选项，既高效又简洁。

参数mode：表示文件的打开权限（第二个参数设定了O_CREAT时才需要），用八进制表示。如果不传入，会发生未定义行为。

注意：该参数只是设定了默认权限，并不是文件的实际权限，实际权限受到umask权限掩码影响。

返回值：成功时返回一个非负整数（文件描述符，稍后讲解），失败时返回-1。

修改当前进程创建文件时的权限掩码：

代码语言：javascript代码运行次数：0运行复制

#include #include mode_t umask(mode_t mask); // 参数是八进制形式的新权限，返回旧权限

系统调用close的作用是关闭文件。其函数原型如下：

代码语言：javascript代码运行次数：0运行复制

#include int close(int fd);

参数：文件描述符，表示要关闭哪一个文件。

返回值：成功返回0，失败返回-1。

文件打开与关闭使用示例：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include int main(){    //以写的方式创建一个不存在的文件    int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC);    if(fd

运行结果：

可以看到，当前路径下出现了一个叫做“test.txt”的文件。

文件的读写操作write

write也是一个系统调用，它的功能是向文件写入内容。函数原型如下：

代码语言：javascript代码运行次数：0运行复制

#include ssize_t write(int fd, const void *buf, size_t count);

参数fd：要写入文件的文件描述符

参数buf：要写入的数据的起始地址

参数count：要写入的数据的字节数

返回值：成功时返回成功写入的字节数；失败时返回-1。

使用示例：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    //以写的方式创建一个不存在的文件    int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC);    if(fd

运行结果：

read

read的作用是从文件读取内容。函数原型如下：

代码语言：javascript代码运行次数：0运行复制

#include ssize_t read(int fd, void *buf, size_t count);

参数fd：要读的文件的文件描述符

参数buf：输出型参数，接收读入的数据（一般是字符数组或结构化数据的地址）

参数count：要读取的字节数（一般是字符数组或结构化数据的大小）

返回值：返回成功读入的字节数，0表示读到文件末尾，-1表示读取错误。

使用示例：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    //以读的方式打开文件test.txt    int fd = open("test.txt", O_RDONLY);    if(fd  0)    {        //由于读入的是字符串，所以读取之后在末尾加上'\0'        buffer[n] = '\0';                //输出读到的数据        std::cout

运行结果：

三、文件描述符

刚才学习系统文件操作接口时，我们已经初步接触到了“文件描述符”。文件描述符其实就是一个整数，用来唯一标识已经打开的文件，系统调用接口只通过文件描述符来区分文件。

C语言的FILE结构体内部就封装了文件描述符，对应成员叫做_fileno。

默认打开的三个流

之前学习C语言文件接口时，我们知道一个程序启动时会默认打开三个流，分别是标准输入流、标准输出流和标准错误流，这三个流分别对应文件描述符0、1、2。你可能会问：三个流难道是文件吗？实际上是如此。在Linux下，在进程层面我们认为“一切皆文件”，那么显示器和键盘也可以看作文件。我们能从键盘输入数据，实际上是从“键盘文件”读取数据；能在显示器上看到数据，实际上是向“显示器文件”写入数据。

由于程序启动时默认就打开了这三个流，所以我们在进行键盘输入/显示器输出时，无需打开文件。这三个流当中，标准输入流对应键盘，而标准输出流和标准错误流对应显示器。

接下来我们尝试对描述符为0、1、2的文件进行简单操作，验证刚才的说法：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    //从标准输入流读取数据    std::cout

运行结果：

注：这里我们虽然没有显式输出换行符，但是它们还是自动分成了三行，原因是read是以字节流的方式读入的，我们从键盘输入数据时，按下Enter时将换行符也读进了buff，因此输出时也带上了换行符。

文件描述符的本质与文件的打开过程

很明显，一个进程可以打开多个文件。而操作系统中存在着大量进程，也就意味着操作系统中存在者大量已打开的文件。

就像管理进程一样，操作系统必然要对这些文件进行管理。因此，就一定有描述文件的结构体，还有数据结构将这些结构体组织起来。在Linux下，该结构体叫做struct file，代表被打开的文件。

那么，既然是进程打开了文件，那么进程和文件的对应关系是如何形成的呢？

实际上task_struct中有一个files_struct*类型的指针，叫做files，它指向一个struct files_struct结构体，该结构体叫做“文件描述符表”。文件描述符表就表示了当前进程打开的所有文件。

文件描述符表结构当中，有一个指针数组叫做fd_array，它的指针类型是file*，刚好指向struct file结构体，这样进程和文件就彻底连接起来了。

到这里，我们就不难得出结论：文件描述符就是fd_array的数组下标。我们传入文件描述符，系统内部就将其当作下标来访问fd_array，进而访问对应的文件（struct file结构体）。

因此，当一个文件被打开时，要先将该文件从磁盘加载到内存中（数据拷贝），形成对应struct file结构体，然后在fd_array中分配一个指针，指向file结构体。后续就可以使用该指针对应的下标（也就是文件描述符），对文件进行操作了。

那么，如果关闭文件，该文件所对应的struct file结构体就相应释放了吗？其实不一定。因为可能还有其他进程打开了这个文件。没错，如果这个文件已经被加载到内存，形成了struct file结构体，那么其他进程打开该文件时，就没必要重新创建struct file结构体，只需让其fd_array中的指针指向已经存在的struct file即可。此时如果要关闭该文件，直接释放struct file肯定是不可行的，因为其他进程还在使用该文件。所以我们能想到：struct file当中应该有类似智能指针shared_ptr的引用计数，记录有多少个进程打开了该文件。只有引用计数为0时，才会释放掉struct file。

文件描述符的分配原则

文件创建时，文件描述符（也就是说fd_array的指针）并不是随机分配给新创建的文件的，而是有一定的规则。我们写一段代码进行验证：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    int fd1 = open("test1.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);    std::cout

可以看到，fd1和fd2以及fd3、fd4和fd5是逐渐递增的。而我们关闭了0（标准输入流）后，创建的fd3占据了原本标准输入流的文件描述符。从此可以得出结论：在fd_array的数组下标中，选择没有被使用的，且是最小的那个，作为新创建文件的文件描述符。

重定向

了解了文件描述符的分配规则以后，我们就可以利用它进行“重定向”操作了。先看一段代码：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    close(1); // 关闭标准输出流    int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);    if(fd

上述代码中，我们首先关闭了标准输出流，然后创建了一个新文件。按照分配规则，则新文件会占据原本标准输出流的文件描述符“1”，此时我们再使用cout向标准输出流打印。结果如下：

可以看到，出现了一个文件，其内容包含了我们要打印的字符串。其实这种操作就叫做“输出重定向”。由于标准输出只针对与文件描述符为1的文件，所以重定向操作是将fd_array数组下标为1的指针指向修改到其他文件，导致标准输出不再作用于显示器。

当然，同样的原理也可实现“输入重定向”“追加重定向（不清空重定向的文件进行追加写入）”等操作。

Linux下，有帮助我们进行重定向的系统调用：

代码语言：javascript代码运行次数：0运行复制

#include int dup2(int oldfd, int newfd);

该函数会让文件描述符newfd所对应的指针指向oldfd所对应的文件。如果成功，返回newfd；否则返回-1。注意：oldfd必须是一个有效的文件描述符。

使用示例：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);    if(fd

四、缓冲区

之前我们学习C语言时，就已经接触过“缓冲区”的概念，今天我们就结合对内存级文件的了解，深入学习一下缓冲区。

缓冲区的本质就是一块内存区域。在操作系统中，实际上有两种不同的缓冲区：语言级缓冲区和文件内核缓冲区。

以C语言举例，创建文件时要调用fopen函数，它返回一个FILE*指针。此时，操作系统当中就会出现一个FILE结构对象，用来在语言层管理文件（例如之前提到的_fileno封装）。而C语言语言层的缓冲区就存在于FILE结构体中。当出现以下三种情况之一，缓冲区内的数据就会被刷新，写入到系统级的文件内核缓冲区中：

强制刷新（如调用fflush）满足以下刷新条件之一处于写透模式 – 没有缓冲机制，立即刷新缓冲区满了行缓冲（换行时缓冲，一般针对显示器）进程退出

而文件内核缓冲区的刷新策略十分复杂，我们可以理解为只要从语言层缓冲区刷新到文件缓冲区，就相当于将数据交给了硬件。

其实不需要缓冲区，就可以实现语言层到硬件层的数据交互。那么为什么会存在缓冲区呢？

语言层缓冲区存在的意义：将数据写入文件必须通过系统调用，频繁使用系统调用的时间成本过高，使用语言层缓冲区将多次写入的数据收集起来，再统一写入，显著减少了使用系统调用的次数，提高效率。文件内核缓冲区存在的意义：提高系统调用的运行效率。

Linux的系统调用fsync可以将文件缓冲区的数据刷新到外设当中：

代码语言：javascript代码运行次数：0运行复制

#include int fsync(int fd); // 传入对应的文件描述符

小练习

判断以下代码的运行结果：

代码语言：javascript代码运行次数：0运行复制

#include #include #include #include #include #include int main(){    int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);    if(fd

运行结果：

![[Pasted image 20250601223628.png]]

解释：我们首先将标准输出重定向到test.txt文件中，然后进行三种写入操作。原本它们是要向显示器打印的，但由于重定向操作，改为向文件写入数据。因此，即便字符串末尾有“\n”，也没有刷新语言层缓冲区内的字符串，因此文件中先写入了“write”（因为这里直接通过系统调用写入，没有语言层缓冲区）。然后我们用fork创建了一个子进程，子进程和父进程共用一份代码和数据，由于语言层缓冲区位于FILE结构体中（也就是栈区中），因此父子进程共用一个语言层缓冲区。然后父子进程各退出一次，也就将语言层缓冲区刷新了两次，因此文件中就出现了两次“printf”和"fprintf"。

总结

本篇文章，我们深入学习了Linux的文件IO接口，并且对内存级文件的存储结构、缓冲区等概念有了深刻的认知。在内存级文件的基础上，博主接下来会和大家一起进入“磁盘级文件”的学习，深入理解文件系统相关知识。如果你觉得博主讲的还不错，就请留下一个小小的赞在走哦，感谢大家的支持❤❤❤

终于介绍完啦！小伙伴们，这篇关于《Linux文件IO基础详解与使用技巧》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！