MNIST 数据集 - .gz 文件不包含“原始”字节

Question

文件的内容应该是一些 32 位整数，然后是一堆无符号字节。显然，这不是我看到的。

不，这正是你所看到的。

全部文件由原始字节组成；其他一切都是解释的问题，取决于你用什么程序打开文件。

如果您在文本编辑器中打开该文件，它将尝试显示文本。它永远不会显示原始字节值，而只会显示 ASCII 表中的相应字符（或来自 Unicode 或其他代码页）。

然而，MNIST 下载页面才不是假设您的数据将以 ASCII 格式写成十进制数。相反，它直接使用字节值来编码数据：“32 位整数”分布在四个字节中（每个字节 8 位）；“无符号字节”则为一个字节。

简而言之，下载的文件是自定义格式，需要特殊软件来解释；文本编辑器不行。相反：

Answer 1

文件的内容应该是一些 32 位整数，然后是一堆无符号字节。显然，这不是我看到的。

不，这正是你所看到的。

全部文件由原始字节组成；其他一切都是解释的问题，取决于你用什么程序打开文件。

如果您在文本编辑器中打开该文件，它将尝试显示文本。它永远不会显示原始字节值，而只会显示 ASCII 表中的相应字符（或来自 Unicode 或其他代码页）。

然而，MNIST 下载页面才不是假设您的数据将以 ASCII 格式写成十进制数。相反，它直接使用字节值来编码数据：“32 位整数”分布在四个字节中（每个字节 8 位）；“无符号字节”则为一个字节。

简而言之，下载的文件是自定义格式，需要特殊软件来解释；文本编辑器不行。相反：

相关内容