非常奇怪的“UTF-8”代码

非常奇怪的“UTF-8”代码

我从 imdb 下载了一个数据库,格式为 tsv.gz (csv) 文件。Imdb 说该文件是 UTF-8 格式的(https://www.imdb.com/interfaces/?ref_=login),但是当我在记事本和 Excel 中查看文件时,它只是一堆中文字母/符号,所以我假设我无法在 Python 中使用它。有人知道发生了什么或该怎么办吗?

答案1

感谢您添加的详细信息。

您下载的文件使用以下方式压缩压缩如果你尝试按原样查看它,它将被解释为你看到的那些字符。你需要解包您必须先执行此操作,然后才能在记事本或 Excel 中查看文本。

正如 Dave 在下面提到的,您应该能够使用任意数量的 zip/归档工具来解压缩它。您可能还想在 Google 上搜索“在 Windows 上解压 .gz 文件”并按照步骤操作。

解压后,你应该得到一个文件.tsv扩展名如 IMBD 所示。

如果你已经解压了.gz如果你仍然看到奇怪的字符,那么你可能不需要打开但该文件进口将其导入 Excel。有关详细信息,请参阅跟随指南

希望对您有所帮助!欢迎评论您的进展。

答案2

我已经下载并使用了title.ratings.tsv.gz。没有问题。

打开它的步骤如下:

  • 解压缩(如果您是 Win用户,则可以使用 7zip 实用程序);
  • 而不是简单地打开它。

如果您使用 Excel,则必须使用导入过程(http://www.arj.no/2013/06/28/how-to-import-tsv-file-in-ms-excel/)。

在记事本中它看起来是这样的

在此处输入图片描述

相关内容