如何让 csvkit 识别长 ASCII 行？

Question

您的有效载荷既不是 ASCII 也不是 UTF-8 编码。您可以快速找到非 ASCII 位：

awk '/[^\x00-\x7F]/{ print NR ":", $0 }' data.csv | less

您将在 UTF-8 编码的终端仿真器中看到类似的东西Briarcliffe College�??Patchogue，表明这不是 UTF-8 编码的文件。编码的第一个猜测是什么？ISO 8859-1，西欧。让我们测试一下：

# piping to /dev/null to suppress printing and speed up processing (printing to tty is slow)
csvcut -e iso-8859-1 data.csv >/dev/null

这次没有错误，瞧！

Answer 1

您的有效载荷既不是 ASCII 也不是 UTF-8 编码。您可以快速找到非 ASCII 位：

awk '/[^\x00-\x7F]/{ print NR ":", $0 }' data.csv | less

您将在 UTF-8 编码的终端仿真器中看到类似的东西Briarcliffe College�??Patchogue，表明这不是 UTF-8 编码的文件。编码的第一个猜测是什么？ISO 8859-1，西欧。让我们测试一下：

# piping to /dev/null to suppress printing and speed up processing (printing to tty is slow)
csvcut -e iso-8859-1 data.csv >/dev/null

这次没有错误，瞧！

相关内容