Linux进程与线程教程
目录
- -
线程
从内核里看进程和线程是一样的,都有各自不同的PCB,但是PCB中指向内存资源的三级页表是相同的,如下图所示。
进程负责整个资源,我们在进程内部创建的线程,资源共享,即用户空间共享,但是每个线程拥有不同的PCB,每个PCB会保存一个内核栈,用于保存当线程被cpu切换时保存寄存器内容,即保护处理现场。
用户空间: 除了线程栈之外,其他的用户空间都是共享的。线程栈内保存线程运行时定义的局部变量等信息。
进程管理
PCB
进程控制块, 其结构大致如下图。我们的PCB中存在一个files struct, 对应就是一个int数组,数组的每个值都是一个文件描述符。当我们的程序fopen打开一个文件时,PCB会在当前files struct的数组结构中找一个最小且未被使用的描述符作为返回,并将其执行要打开的文件。
处理器管理级别
CPU有4个工作级别, 这里Linux就使用了0和3两个级别。3级对应用户态,0级对应内核态。处于3级的cpu只能访问0~3G的空间,也就是用户空间。当cpu处于0级,才有资格访问3G~4G这个内核空间。
从用户态到内核态怎么转换的呢?
就是调用系统调用。应用程序的printf底层调用sys\_write。我们便从用户态3级变成了内核态0级。
用户空间
这里对系统分配给进程的虚拟空间0~3G空间的内容说明。
进程状态
时段1的时候cpu在执行a.out,当时段2的时候b.out程序要执行,这个时候cpu会保存处理器现场,也就是寄存器中的数据。当b.out执行完毕后,a.out又重新唤起执行,那么这个时候我们便需要恢复处理器现场。这个处理器现场是保存到当前pcb内核栈上。
fork原理
fork时,我们先通过create()创建一个进程,然后使用clone()将父进程的用户空间复制到子进程的用户空间。现在这里一般使用了copy on write技术,即读时共享,写时复制,这样提高了cpu的运行效率。子进程读时,因为共享无需复制,子进程写时,我们便执行复制相应的数据。
exec原理
fork之后,exec是加载别的程序覆盖我们用户空间的代码段。然后执行这个新的代码段。exec不具有返回值,当加载错误时,那么该进程会继续这些exec后的代码。
僵死进程Zombie和孤儿进程
僵尸进程: 子进程退出,父进程没有回收子进程资源(PCB),则子进程变成僵尸进程。
孤儿进程: 父进程先于子进程结束,则子进程成为孤儿进程,子进程的父进程成为1号进程init进程,称为init进程领养孤儿进程
一个进程在终止时会关闭所有文件描述符,释放在用户空间分配的内存,但它的PCB还保留着,内核在其中保存了一些信息:如果是正常终止则保存着退出状态,如果是异常终止则保存着导致该进程终止的信号是哪个。这个进程的父进程可以调用wait或waitpid获取这些信息,然后彻底清除掉这个进程。
#include <sys/types.h>
#include <sys/wait.h>
pid_t wait(int *status);
pid_t waitpid(pid_t pid, int *status, int options);
< -1 回收指定进程组内的任意子进程
-1 回收任意子进程
0 回收和当前调用waitpid一个组的所有子进程
> 0 回收指定ID的子进程
进程间通信
每个进程各自有不同的用户地址空间,任何一个进程的全局变量在另一个进程中都看不到,所以进程之间要交换数据必须通过内核,在内核中开辟一块缓冲区,进程1把数据从用户空间拷到内核缓冲区,进程2再从内核缓冲区把数据读走,内核提供的这种机制称为进程间通信(IPC,InterProcess Communication)。
pipe通道
管道是一种最基本的IPC机制,由pipe函数创建:
#include <unistd.h>
int pipe(int filedes[2])
管道作用于有血缘关系的进程之间,通过fork来传递
调用pipe函数时在内核中开辟一块缓冲区(称为管道)用于通信,它有一个读端一个写端,然后通过filedes参数传出给用户程序两个文件描述符,filedes[0]指向管道的读端,filedes[1]指向管道的写端(很好记,就像0是标准输入1是标准输出一样)。所以管道在用户程序看起来就像一个打开的文件,通过read(filedes[0]);或者write(filedes[1]);向这个文件读写数据其实是在读写内核缓冲区。pipe函数调用成功返回0,调用失败返回-1。
使用过程
1.父进程调用pipe开辟管道,得到两个文件描述符指向管道的两端。
2.父进程调用fork创建子进程,那么子进程也有两个文件描述符指向同一管道。
3.父进程关闭管道读端,子进程关闭管道写端。父进程可以往管道里写,子进程可以从管道里读,管道是用环形队列实现的,数据从写端流入从读端流出,这样就实现了进程间通信。
管道限制
两个进程通过一个管道只能实现单向通信,比如上面的例子,父进程写子进程读,如果有时候也需要子进程写父进程读,就必须另开一个管道。请读者思考,如果只开一个管道,但是父进程不关闭读端,子进程也不关闭写端,双方都有读端和写端,为什么不能实现双向通信?
管道的读写端通过打开的文件描述符来传递,因此要通信的两个进程必须从它们的公共祖先那里继承管道文件描述符。上面的例子是父进程把文件描述符传给子进程之后父子进程之间通信,也可以父进程fork两次,把文件描述符传给两个子进程,然后两个子进程之间通信,总之需要通过fork传递文件描述符使两个进程都能访问同一管道,它们才能通信。
使用管道需要注意以下4种特殊情况(假设都是阻塞I/O操作,没有设置O\_NONBLOCK标志):
1.如果所有指向管道写端的文件描述符都关闭了(管道写端的引用计数等于0),而仍然有进程从管道的读端读数据,那么管道中剩余的数据都被读取后,再次read会返 回0,就像读到文件末尾一样。
2.如果有指向管道写端的文件描述符没关闭(管道写端的引用计数大于0),而持有管道写端的进程也没有向管道中写数据,这时有进程从管道读端读数据,那么管道中 剩余的数据都被读取后,再次read会阻塞,直到管道中有数据可读了才读取数据并返回。
3.如果所有指向管道读端的文件描述符都关闭了(管道读端的引用计数等于0),这时有进程向管道的写端write,那么该进程会收到信号SIGPIPE,通常会导致进程异常 终止。讲信号时会讲到怎样使SIGPIPE信号不终止进程。
4.如果有指向管道读端的文件描述符没关闭(管道读端的引用计数大于0),而持有管道读端的进程也没有从管道中读数据,这时有进程向管道写端写数据,那么在管道 被写满时再次write会阻塞,直到管道中有空位置了才写入数据并返回。
管道的这四种特殊情况具有普遍意义。
非阻塞管道, fcntl函数设置O\_NONBLOCK标志
fpathconf(int fd, int name)测试管道缓冲区大小,\_PC\_PIPE\_BUF
fifo有名管道
创建一个有名管道,解决无血缘关系的进程通信, mkfifo 既有命令也有函数
#include <sys/types.h>
#include <sys/stat.h>
int mkfifo(const char *pathname, mode_t mode);
- 当只写打开FIFO管道时,如果没有FIFO没有读端打开,则open写打开会阻塞。
- FIFO内核实现时可以支持双向通信。(pipe单向通信,因为父子进程共享同一个file 结构体)
- FIFO可以一个读端,多个写端;也可以一个写端,多个读端。(请测试)
mkfilo本地建立一个文件,这个文件在内核形成一个通道。进程一打开myfilo文件,当我们以写权限打开文件,则进程一可以往这个通道写入数据。进程二以读权限打开这个文件,则可以读出通道内部的数据。
案例
mmap/munmap
mmap可以把磁盘文件的一部分直接映射到内存,这样文件中的位置直接就有对应的内存地址,对文件的读写可以直接用指针来做而不需要read/write函数。
#include <sys/mman.h>
void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
int munmap(void *addr, size_t length);
如果addr参数为NULL,内核会自己在进程地址空间中选择合适的地址建立映射。如果addr不是NULL,则给内核一个提示,应该从什么地址开始映射,内核会选择addr之上的某个合适的地址开始映射。建立映射后,真正的映射首地址通过返回值可以得到。len参数是需要映射的那一部分文件的长度。off参数是从文件的什么位置开始映射,必须是页大小的整数倍(在32位体系统结构上通常是4K)。filedes是代表该文件的描述符。
prot参数有四种取值:
* PROT\_EXEC表示映射的这一段可执行,例如映射共享库
* PROT\_READ表示映射的这一段可读
* PROT\_WRITE表示映射的这一段可写
* PROT\_NONE表示映射的这一段不可访问
flag参数有很多种取值,这里只讲两种,其它取值可查看mmap(2)
* MAP\_SHARED多个进程对同一个文件的映射是共享的,一个进程对映射的内存做了修改,另一个进程也会看到这种变化。
* MAP\_PRIVATE多个进程对同一个文件的映射不是共享的,一个进程对映射的内存做了修改,另一个进程并不会看到这种变化,也不会真的写到文件中去。如果mmap成功则返回映射首地址,如果出错则返回常数MAP\_FAILED。当进程终止时,该进程的映射内存会自动解除,也可以调用munmap解除映射。munmap成功返回0,出错返回-1。
案例
- * 用于进程间通信时,一般设计成结构体,来传输通信的数据
- * 进程间通信的文件,应该设计成临时文件
- * 当报总线错误时,优先查看共享文件是否有存储空间