你是否曾疑惑“a.out”这个名字是怎样确定的?把所有的输出文件都缺省的使用同一个名字a.out可能会带来不便,可能会忘了它来自哪一个源文件,对任何文件进行下一次编译时都有可能覆盖它。

a.out是“assembler output”(汇编程序输出)的缩写形式。这里有一个问题:它不是汇编程序输出,而是链接器输出。“汇编程序输出”这个名字的产生纯属历史原因。在早期的语言中并不存在链接器,程序是这样创建的:先把所有源文件连接在一起,然后进行汇编,汇编产生的汇编程序输出保存在a.out中。即使最后有了链接器之后,最后一个环节的输出文件依然沿用了这个命名习惯。

UNIX中的可执行文件是以一种特殊的方式加上标签,这样系统就能确认它们的特殊属性。为重要的数据定义标签,用独特的数字唯一的标识该数据是一种普遍采用的编程技巧。可执行文件用文件的第一个字节来标注,文件以十六进制数7F开头,紧跟在后面的第二至第四个字节为“ELF”(Executable and Linking Format)可执行文件和链接格式。

在UNIX中,段表示一个二进制文件相关的内容块,里面保存了和某种特定类型(如符号表条目)相关的所有信息。术语section也被广泛使用,section是ELF文件中的最小组织单位。一个段一般包含几个section。size命令+可执行文件可以告诉你这个文件中的三个段(文本段、数据段和bss段)的大小。
size命令
检查可执行文件内容的另一种方式是使用nm或dump工具。nm可以列出目标文件的符号清单。
编译下面的源文件,在结果的a.out文件上运行nm程序:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#include <stdio.h>
#include <malloc.h>

char pear[40];
static double peach;
int mango = 13;
static long melon = 2001;

int main(int argc,char *argv[])
{
int i = 3,j,*ip;
ip = malloc(sizeof(i));
pear[5]=i;
peach = 2.0 * mango;
return 0;
}

执行nm程序:

1
nm -Sln a.out

执行nm程序
我们对上面显示的内容稍作整理:

大小 类型 名字
000000000000064a 000000000000004a T main
0000000000201010 0000000000000004 D mango
0000000000201018 0000000000000008 d melon
0000000000201028 0000000000000008 b peach
0000000000201040 0000000000000028 B pear

下面说明符号类型:
对于每一个符号来说,其类型如果是小写的,则表明该符号是local的;大写则表明该符号是global(external)的。

符号类型 说明
A 该符号的值是绝对的,在以后的链接过程中,不允许进行改变。这样的符号值,常常出现在中断向量表中,例如用符号来表示各个中断向量函数在中断向量表中的位置。
B 该符号的值出现在非初始化数据段(bss)中。例如,在一个文件中定义全局static int test。则该符号test的类型为B,位于bss section中。其值表示该符号在bss段中的偏移。一般而言,bss段分配于RAM中。
C 该符号为common。common symbol是未初始话数据段。该符号没有包含于一个普通section中。只有在链接过程中才进行分配。符号的值表示该符号需要的字节数。例如在一个c文件中,定义int test,并且该符号在别的地方会被引用,则该符号类型即为C。否则其类型为B。
D 该符号位于初始话数据段中。一般来说,分配到data section中。例如定义全局int baud_table[5] = {9600, 19200, 38400, 57600, 115200},则会分配于初始化数据段中。
G 该符号也位于初始化数据段中。主要用于small object提高访问small data object的一种方式。
I 该符号是对另一个符号的间接引用。
N 该符号是一个debugging符号。
R 该符号位于只读数据区。例如定义全局const int test[] = {123, 123};则test就是一个只读数据区的符号。注意在cygwin下如果使用gcc直接编译成MZ格式时,源文件中的test对应_test,并且其符号类型为D,即初始化数据段中。但是如果使用m6812-elf-gcc这样的交叉编译工具,源文件中的test对应目标文件的test,即没有添加下划线,并且其符号类型为R。一般而言,位于rodata section。值得注意的是,如果在一个函数中定义const char *test = “abc”, const char test_int = 3。使用nm都不会得到符号信息,但是字符串“abc”分配于只读存储器中,test在rodata section中,大小为4。
S 符号位于非初始化数据区,用于small object。
T 该符号位于代码区text section。
U 该符号在当前文件中是未定义的,即该符号的定义在别的文件中。例如,当前文件调用另一个文件中定义的函数,在这个被调用的函数在当前就是未定义的;但是在定义它的文件中类型是T。但是对于全局变量来说,在定义它的文件中,其符号类型为C,在使用它的文件中,其类型为U。
V 该符号是一个weak object。
W The symbol is a weak symbol that has not been specifically tagged as a weak object symbol.
- 该符号是a.out格式文件中的stabs symbol。
? 该符号类型没有定义。

根据上面的内容,我们可以判断出a.out文件里面的内容分布:

a.out段 内容
a.out开头 0x7F + “ELF”
a.out其他内容
BSS段 (b)pear,(B)peach:未初始化的全局和静态变量
数据段 (d)mango,(D)melon:初始化后的全局和静态变量
文本段 可执行文件的指令

1.局部变量并不进入a.out,它们在运行时创建。
2.BSS段这个名字是“Block Started by Symbol”(由符号开始的块)的缩写,它是旧式IBM04汇编程序的一个伪指令,UNIX借用了这个名字。有些人喜欢把它记作Better Save Space。由于BSS段只保存没有值的变量,所以事实上它并不需要保存这些变量的映像。BSS段不保存在目标文件中(除了记录BSS段在运行时所需要的大小)。
3.数据段保存在目标文件中。
4.文本段是最容易受优化措施影响的段。a.out文件的大小受调试状态下编译的影响,但段不受影响。