我从纳斯达克网站下载了一些输入文件(例如ftp://emi.nasdaq.com/ITCH/01302018.NASDAQ_ITCH50.gz)解压后(我在Mac上双击)我无法使用head、tail或cat看到文件内容。我只看到乱码字符。我已经尝试下载每个文件三次左右。终端中是否有任何我应该更改的设置(这是我第一次在这台机器上执行此操作)。
我还尝试根据网站上提供的内容检查他们的 MD5。看来他们不匹配。在这种情况下可以做什么?同样,我多次下载它们,以考虑丢失位等的可能性。
我认为像这样的流行网站不会上传损坏的数据文件,对吧?
您能否指导我如何查看文件的内容?我以前从未遇到过这个问题;我总是能够通过执行head
或来检查文件cat
。
这些文件位于此文件夹中:ftp://emi.nasdaq.com/ITCH/
答案1
您的文件包含 NASDAQ TotalView-ITCH 数据源,如中所述数据新闻 #2008 - 91。
文件使用的格式不是纯文本格式而是二进制编码格式。
PDF文档中详细描述了这种二进制格式纳斯达克 TotalView-ITCH 4.0。该文件纳斯达克 TotalView-ITCH 3.1描述基于文本的编码格式。
这只是让您进一步了解这些文件的一种方式。可能有软件可以读取这些高度特定于域的数据文件。数据提供商(纳斯达克)可能会在其文档中引用这一点。
应对照原始压缩文件检查 MD5 校验和。不是未压缩的文件(甚至是重新压缩的文件)。
一般来说,当数据提供商为您提供数据文件的 MD5 校验和时,它将是他们提供给您的文件的校验和,采用他们提供给您的格式。