如何修复旧文件中的希伯来语 Mojibake

2024-9-4 • tag-icon

encoding unicode hebrew

如何修复旧文件中的希伯来语 Mojibake

我有一组纯文本文件，其中混合了希伯来语和英语。这些文件是 90 年代末到 2000 年代初的，显然是用 NisusWriter 编写的。

当我打开文本文件时，英文行可以正确呈现，但希伯来语行却混乱不堪，就像这样：

 Â∆˙ŸÙœÏ∆À˙ÀÌ†††ÂŸ‰À÷Õ·†††‡Œ˙†††‰ÀÚ⁄·«„À‰††††

我编写了一个循环来运行 iconv 及其支持的每种编码，但没有一个输出是固定的

在前三行（一行英文、一行混乱的希伯来语和一行拉丁字符的音译）上运行 hexdump -C 得到以下结果。混乱的希伯来语似乎只是写成 . 字符

00000010  50 2e 20 31 31 30 20 20  2d 20 41 56 4f 44 41 48  |P. 110  - AVODAH|
00000020  0d 0d 20 f8 d9 f6 cd e4  a0 ac a0 a0 a0 e9 d9 e9  |.. .............|
00000030  cb a0 a0 a0 e0 db ec dd  e4 cd d8 e9 f0 e5 c6 a0  |................|
00000040  ac a0 a0 a0 e1 c6 d9 f2  cc ee c6 d9 ea cb a0 a0  |................|
00000050  a0 e9 cf f9 dd d9 f8 cb  e0 cd ec a0 ac 0d 0d 52  |...............R|
00000060  65 2d 74 7a 65 68 d5 2c  20 20 20 20 41 64 6f 6e  |e-tzeh.,    Adon|
00000070  61 69 20 20 20 20 20 20  45 2d 6c 6f 2d 68 65 69  |ai      E-lo-hei|
00000080  d5 2d 6e 75 20 2c 20 20  20 20 20 20 20 62 65 2d  |.-nu ,       be-|
00000090  61 6d 2d 63 68 61 d5 20  20 20 20 20 20 20 20 79  |am-cha.        y|
000000a0  69 73 2d 72 61 2d 65 6c  d5 20 0d 62 65 20 70 6c  |is-ra-el. .be pl|
000000b0  65 61 73 65 64 2c 20 20  20 20 41 64 6f 6e 61 69  |eased,    Adonai|

答案1

我最终找到了解决方案，并想将其写下来以防其他人遇到类似的问题。

我使用我找到的一个网站来尝试所有的编码，直到我找到一个可以正确呈现希伯来语的编码，尽管带有神秘的字符分隔符。

https://www.motobit.com/util/charset-codepage-conversion.asp

我可以通过使用@user1686 的建议使用来自的十六进制值hexdump并与编码表进行交叉引用来验证这一点。

最终发现该文件的编码为 x-mac-hebrew

相关内容