我有数百个几年前创建的“.htm”页面,其中大部分内容都是从 Microsoft Word 复制而来的。
不幸的是,这些页面包含单词特定字符,例如单引号’
和长划线 –。它们的字节值分别为 92 和 96。我只想用基本的 ACSII 等效字符替换它们。
我正在测试在尝试替换之前使用 grep 搜索字符。
我努力了:
grep -n "’" *.htm
grep -n "\x92" *.htm
grep -n "[\x92]" *.htm
grep -P -n "[\x92]" *.htm
但他们什么也没找到。我用内容制作了一个小文件并进行了十六进制转储:
0000000 20920天96000a
您可以看到十六进制值以粗体显示(我)。找到这些值的正确方法是什么?