如何在 gedit 上扫描无效字符?

如何在 gedit 上扫描无效字符?

我在是否编辑 javascript 文件时遇到了困境。当我用 gedit 打开它时,它显示以下警告:

您打开的文件包含一些无效字符。如果继续编辑此文件,可能会损坏此文档。您也可以选择其他字符编码并重试。

当前的编码是UTF-8。由于该文件有超过100,000行代码,有没有一种快速的方法来扫描无效字符?

答案1

由于文件是 UTF-8 你可以运行isutf8。一个附加的实用程序包。它为您提供坏字节的行、字符和偏移量。

然后使用xxd、hexdump之类的来分析。

不幸的是它在第一次崩溃时停止了。但这又取决于文件。可能只有一个坏字节;)

有一些 C 代码可以对整个文件进行类似的分析。它在磁盘上某个早已被遗忘的地方。有需要的话可以尝试去找一下。

否则是的,快而不是肮脏的方法是在用 gedit 保存的副本之间进行差异 - 正如好先生所提议的那样。@冯布兰德

相关内容