从内核看coredump文件生成过程-DPDK中文网

好的，这是一个非常专业和深入的问题。从Linux内核的视角来看，一个coredump文件的生成过程是信号处理、进程管理和文件系统交互的完美结合。

下面我们详细拆解这个过程：

核心概述

coredump 的本质是：当进程收到某些特定的信号（如 SIGSEGV， SIGABRT等）时，内核捕获该信号，并主动将进程在崩溃瞬间的用户空间内存映像（包含代码、数据、堆栈、寄存器状态等）写入一个磁盘文件，以便后续调试。

详细生成过程（内核视角）

整个过程可以看作一个由信号触发的“紧急快照”流程。

阶段一：触发与信号传递

致命事件发生：
- 软件触发：进程执行了非法操作，例如解引用空指针（导致 SIGSEGV）、执行非法指令（SIGILL）、进行错误的算术运算（如除零，导致 SIGFPE）。
- 硬件触发： CPU检测到这些非法操作后，会产生一个异常（Exception）。
- 用户触发：用户或另一个进程向该进程发送了致命信号（如 kill -SIGABRT <pid>）。
内核接管：
- CPU的异常处理程序将控制权交给Linux内核的中断或异常处理例程。
- 内核根据异常类型，将其转换为一个对应的信号（例如，内存访问错误 -> SIGSEGV）。
信号递达检查：
- 内核检查目标进程对该信号的处置方式。处置方式有三种：
  - SIG_IGN：忽略 -> 无事发生。
  - SIG_DFL：默认行为 -> 对于像 SIGSEGV, SIGABRT 这样的信号，默认行为就是终止进程并生成coredump。
  - 自定义句柄：用户设置了信号处理函数 -> 如果信号处理函数返回或调用了 exit，则不会生成coredump；但如果信号处理函数中又发生了同样的致命信号，或者使用了 siglongjmp 跳出，则行为复杂。

阶段二：核心转储决策与准备

决策是否生成Coredump：内核会检查一系列条件来决定是否真的写入coredump文件：
- 信号的默认动作是否包含Coredump：例如 SIGQUIT, SIGILL, SIGABRT, SIGSEGV 等。
- 资源限制是否允许：通过 ulimit -c 设置的core文件大小限制。如果限制为0，则不会生成。
- 文件系统是否有足够空间。
- 进程是否有权限在当前目录写入（遵循 /proc/sys/kernel/core_pattern 的设定）。
- 二进制文件是否可转储：通过 prctl(PR_SET_DUMPABLE, ...) 可以设置进程是否允许被转储。
解析 core_pattern：
- 这是整个过程的“指挥中心”。内核会读取 /proc/sys/kernel/core_pattern 文件。
- 如果 core_pattern 是普通文件名（例如 /var/crash/core.%p），内核会直接使用这个模式来生成文件名。
- 如果 core_pattern 以管道符 | 开头（例如 |/usr/share/apport/apport %p %s %c %d %P），这意味着内核将不直接写文件，而是将coredump数据通过标准输入发送给指定的用户态辅助程序。这种方式给了开发者极大的灵活性（例如自动上传、压缩、分析等）。

阶段三：内存抓取与写入

创建转储文件/启动管道程序
- 文件模式：内核根据解析后的文件名创建一个新文件。
- 管道模式: fork并执行管道程序，与其建立一个管道连接。
遍历内存区域并写入 这是最核心的步骤。内核会遍历崩溃进程的整个虚拟内存空间（通过其 mm_struct 结构体管理的VMA链表）。对于每个有效的、需要转储的内存区域（Virtual Memory Area, VMA）：
- 检查权限: VMA必须是可读的，并且是用户空间的映射（排除内核空间和特殊映射）。
  
  /proc/pid/maps中的内容就是这些VMA的信息 r-xp:代码段 rw-p:数据段,堆,栈 …
  
  只有标记为可读的内存段才会被dump 同时/proc/pid/pagemap也会参与这个过程
具体实现是在linux源码的fs/binfmt_elf.c中的elf_core_dump()函数里调用dump_seek(),dump_emit()等函数完成的

这里有个关键点: coredump并不是简单地把物理内存拷贝到文件,而是按VMA组织成ELF格式,这样调试器才能正确解析
具体来说:
1. ELF头写入:首先写入ELF文件头,标识这是一个Core文件
2. Program Header Table:为每个需要转储的VMA创建一个Program Header条目, 描述该段内存的虚拟地址、偏移量、大小等信息
3. Note段写入:这是关键元数据,通过ELF Note机制存储:
```
   - PRSTATUS:寄存器状态(来自pt_regs)
   - PRPSINFO:进程信息(状态、PID、命令行等)  
   - FPREGSET:浮点寄存器状态
   - SIGINFO:导致崩溃的信号信息
   - AUXV:辅助向量(auxiliary vector)
```
4. VMA数据写入: a)对于匿名映射(堆、栈):直接逐页拷贝内容 b)对于文件映射:.so,.exe等,为了节省空间,只保存文件路径和偏移量, 调试器可以根据这些信息重新从磁盘加载