理解a.out

2018-08-12 | 学习笔记——expert c programming | 阅读 | 1.7k 字 | 6 分钟

文章目录

你是否曾疑惑“a.out”这个名字是怎样确定的？把所有的输出文件都缺省的使用同一个名字a.out可能会带来不便，可能会忘了它来自哪一个源文件，对任何文件进行下一次编译时都有可能覆盖它。

a.out是“assembler output”（汇编程序输出）的缩写形式。这里有一个问题：它不是汇编程序输出，而是链接器输出。“汇编程序输出”这个名字的产生纯属历史原因。在早期的语言中并不存在链接器，程序是这样创建的：先把所有源文件连接在一起，然后进行汇编，汇编产生的汇编程序输出保存在a.out中。即使最后有了链接器之后，最后一个环节的输出文件依然沿用了这个命名习惯。

UNIX中的可执行文件是以一种特殊的方式加上标签，这样系统就能确认它们的特殊属性。为重要的数据定义标签，用独特的数字唯一的标识该数据是一种普遍采用的编程技巧。可执行文件用文件的第一个字节来标注，文件以十六进制数7F开头，紧跟在后面的第二至第四个字节为“ELF”（Executable and Linking Format）可执行文件和链接格式。

在UNIX中，段表示一个二进制文件相关的内容块，里面保存了和某种特定类型（如符号表条目）相关的所有信息。术语section也被广泛使用，section是ELF文件中的最小组织单位。一个段一般包含几个section。size命令+可执行文件可以告诉你这个文件中的三个段（文本段、数据段和bss段）的大小。

检查可执行文件内容的另一种方式是使用nm或dump工具。nm可以列出目标文件的符号清单。
编译下面的源文件，在结果的a.out文件上运行nm程序：

#include <stdio.h>
#include <malloc.h>

char pear[40];
static double peach;
int mango = 13;
static long melon = 2001;

int main(int argc,char *argv[])
{
        int i = 3,j,*ip;
        ip = malloc(sizeof(i));
        pear[5]=i;
        peach = 2.0 * mango;
        return 0;
}

执行nm程序：

1	nm -Sln a.out

执行nm程序
我们对上面显示的内容稍作整理：

值	大小	类型	名字
000000000000064a	000000000000004a	T	main
0000000000201010	0000000000000004	D	mango
0000000000201018	0000000000000008	d	melon
0000000000201028	0000000000000008	b	peach
0000000000201040	0000000000000028	B	pear

下面说明符号类型：
对于每一个符号来说，其类型如果是小写的，则表明该符号是local的；大写则表明该符号是global(external)的。

符号类型	说明
A	该符号的值是绝对的，在以后的链接过程中，不允许进行改变。这样的符号值，常常出现在中断向量表中，例如用符号来表示各个中断向量函数在中断向量表中的位置。
B	该符号的值出现在非初始化数据段(bss)中。例如，在一个文件中定义全局static int test。则该符号test的类型为B，位于bss section中。其值表示该符号在bss段中的偏移。一般而言，bss段分配于RAM中。
C	该符号为common。common symbol是未初始话数据段。该符号没有包含于一个普通section中。只有在链接过程中才进行分配。符号的值表示该符号需要的字节数。例如在一个c文件中，定义int test，并且该符号在别的地方会被引用，则该符号类型即为C。否则其类型为B。
D	该符号位于初始话数据段中。一般来说，分配到data section中。例如定义全局int baud_table[5] = {9600, 19200, 38400, 57600, 115200}，则会分配于初始化数据段中。
G	该符号也位于初始化数据段中。主要用于small object提高访问small data object的一种方式。
I	该符号是对另一个符号的间接引用。
N	该符号是一个debugging符号。
R	该符号位于只读数据区。例如定义全局const int test[] = {123, 123};则test就是一个只读数据区的符号。注意在cygwin下如果使用gcc直接编译成MZ格式时，源文件中的test对应_test，并且其符号类型为D，即初始化数据段中。但是如果使用m6812-elf-gcc这样的交叉编译工具，源文件中的test对应目标文件的test,即没有添加下划线，并且其符号类型为R。一般而言，位于rodata section。值得注意的是，如果在一个函数中定义const char *test = “abc”, const char test_int = 3。使用nm都不会得到符号信息，但是字符串“abc”分配于只读存储器中，test在rodata section中，大小为4。
S	符号位于非初始化数据区，用于small object。
T	该符号位于代码区text section。
U	该符号在当前文件中是未定义的，即该符号的定义在别的文件中。例如，当前文件调用另一个文件中定义的函数，在这个被调用的函数在当前就是未定义的；但是在定义它的文件中类型是T。但是对于全局变量来说，在定义它的文件中，其符号类型为C，在使用它的文件中，其类型为U。
V	该符号是一个weak object。
W	The symbol is a weak symbol that has not been specifically tagged as a weak object symbol.
-	该符号是a.out格式文件中的stabs symbol。
?	该符号类型没有定义。

根据上面的内容，我们可以判断出a.out文件里面的内容分布：

a.out段	内容
a.out开头	0x7F + “ELF”
a.out其他内容	…
BSS段	(b)pear,(B)peach：未初始化的全局和静态变量
数据段	(d)mango,(D)melon：初始化后的全局和静态变量
文本段	可执行文件的指令

1.局部变量并不进入a.out，它们在运行时创建。
2.BSS段这个名字是“Block Started by Symbol”（由符号开始的块）的缩写，它是旧式IBM04汇编程序的一个伪指令，UNIX借用了这个名字。有些人喜欢把它记作Better Save Space。由于BSS段只保存没有值的变量，所以事实上它并不需要保存这些变量的映像。BSS段不保存在目标文件中（除了记录BSS段在运行时所需要的大小）。
3.数据段保存在目标文件中。
4.文本段是最容易受优化措施影响的段。a.out文件的大小受调试状态下编译的影响，但段不受影响。

本文标题：理解a.out

文章作者：Mr Bluyee

发布时间：2018-08-12

最后更新：2019-07-15

原始链接：https://www.mrbluyee.com/2018/08/12/%E7%90%86%E8%A7%A3a-out/