为什么二进制文件编译后我们看不懂里面的内容？

Question 1

首先，寄存器没有地址。任何汇编语言中的每条指令都会转换为操作码。x86 中的操作码可以是一个、两个、三个甚至更多字节（在某些其他处理器中，它们是“固定宽度”的）。通常，操作码会标识所涉及的指令、寻址模式和寄存器。“寻址模式”决定 CPU 是否需要除操作码以外的其他内容，即“立即”寻址模式意味着在该指令之后（或“紧随其后”）有其他数据 - “绝对”寻址模式意味着内存地址跟在指令之后并由该指令使用。

您可以找出类似MOV AL,SP或相似的操作码，然后搜索它。x86 有很多对堆栈指针进行操作的指令。

但是，求求您，请停止使用记事本，改用十六进制编辑器。我推荐 HxD，尽管还有很多其他的。

@David Schwartz 是对的。反汇编程序将遍历文件，并将操作码重新翻译成可读的文本。你想要做的事情完全有可能。

然而，你需要知道文件中的指令从哪里开始因为如果你从错误的地址开始，一些应该是操作码的“操作数”的数据（例如以地址作为操作数或“参数”的指令）可能会被误解为操作码。要知道这一点，需要了解可执行文件的格式，对于 Windows 来说是“可移植可执行文件”或 PE 格式（对于 Linux 系统通常是 ELF）。我相信有反汇编程序可以理解 PE 等，但我不知道有任何现成的。

Answer

首先，寄存器没有地址。任何汇编语言中的每条指令都会转换为操作码。x86 中的操作码可以是一个、两个、三个甚至更多字节（在某些其他处理器中，它们是“固定宽度”的）。通常，操作码会标识所涉及的指令、寻址模式和寄存器。“寻址模式”决定 CPU 是否需要除操作码以外的其他内容，即“立即”寻址模式意味着在该指令之后（或“紧随其后”）有其他数据 - “绝对”寻址模式意味着内存地址跟在指令之后并由该指令使用。

您可以找出类似MOV AL,SP或相似的操作码，然后搜索它。x86 有很多对堆栈指针进行操作的指令。

但是，求求您，请停止使用记事本，改用十六进制编辑器。我推荐 HxD，尽管还有很多其他的。

@David Schwartz 是对的。反汇编程序将遍历文件，并将操作码重新翻译成可读的文本。你想要做的事情完全有可能。

然而，你需要知道文件中的指令从哪里开始因为如果你从错误的地址开始，一些应该是操作码的“操作数”的数据（例如以地址作为操作数或“参数”的指令）可能会被误解为操作码。要知道这一点，需要了解可执行文件的格式，对于 Windows 来说是“可移植可执行文件”或 PE 格式（对于 Linux 系统通常是 ELF）。我相信有反汇编程序可以理解 PE 等，但我不知道有任何现成的。

Question 2

如果我理解正确的话

不完全的。

它是一个二进制文件，其数据对于我们人类来说是难以理解的

通常二进制文件对于人类和机器来说是难以理解的，尤其是当文件的用途未知时。请注意，并非所有二进制文件都是可执行文件。许多二进制文件都是不包含任何机器指令的数据文件。这就是为什么在命名文件时使用文件扩展名的原因（在某些操作系统中）。.com扩展名被 CP/M 用于表示可执行文件。.EXE文件扩展名由 MS-DOS 添加，以表示另一种可执行文件格式。*nix 使用 execute 属性来表示哪些文件可以执行，尽管它可以是脚本也可以是代码。

正如其他人所提到的，包含数字的二进制文件应该用十六进制转储程序或十六进制编辑器查看，而不是用文本查看器查看。

这是 ping.exe 程序内容的示例

该文件实际上是一个可重定位的程序，并且该文件中的数据并非全部都代表机器代码。它包含有关该程序的信息，例如它需要哪些动态库、必须链接哪些例程、对堆栈和程序及数据内存的要求以及程序的入口点。文件中的地址操作数可能是需要计算为绝对值的相对值，也可能是需要解析的引用。

您可能想到的“程序文件”称为二进制映像文件或程序内存转储。此类文件仅包含机器代码和数据，所有地址引用均已正确设置以供执行。

即使他们知道汇编代码（最低级别的机器语言）。

汇编语言与机器语言不同. 典型的（不包括高级语言计算机）CPU 接受机器代码作为输入，一次一条指令。操作数是寄存器或数字内存地址。汇编语言是一种高级语言，可以使用象征性的指令位置和变量的标签，以及用助记符替换数字操作码。汇编语言程序必须转换为机器语言/代码才能实际执行（通常通过称为汇编器、链接器和加载器的实用程序）。

可以对程序文件执行反向操作（反汇编），虽然成功率不高，但会丢失一些符号信息。内存转储或程序映像文件的反汇编需要反复试验，因为需要手动识别代码和数据位置。

顺便说一句，有些人可以读取和编码（数字）机器代码。当然，这在 8 位 CPU 或微控制器上比在具有十几种内存地址模式的 32 位 CISC 处理器上容易得多。

Answer