我有一组纯文本文件,其中混合了希伯来语和英语。这些文件是 90 年代末到 2000 年代初的,显然是用 NisusWriter 编写的。
当我打开文本文件时,英文行可以正确呈现,但希伯来语行却混乱不堪,就像这样:
Â∆˙ŸÙœÏ∆À˙À̆††ÂŸ‰À÷Õ·†††‡Œ˙†††‰ÀÚ⁄·«„À‰††††
我编写了一个循环来运行 iconv 及其支持的每种编码,但没有一个输出是固定的
在前三行(一行英文、一行混乱的希伯来语和一行拉丁字符的音译)上运行 hexdump -C 得到以下结果。混乱的希伯来语似乎只是写成 . 字符
00000010 50 2e 20 31 31 30 20 20 2d 20 41 56 4f 44 41 48 |P. 110 - AVODAH|
00000020 0d 0d 20 f8 d9 f6 cd e4 a0 ac a0 a0 a0 e9 d9 e9 |.. .............|
00000030 cb a0 a0 a0 e0 db ec dd e4 cd d8 e9 f0 e5 c6 a0 |................|
00000040 ac a0 a0 a0 e1 c6 d9 f2 cc ee c6 d9 ea cb a0 a0 |................|
00000050 a0 e9 cf f9 dd d9 f8 cb e0 cd ec a0 ac 0d 0d 52 |...............R|
00000060 65 2d 74 7a 65 68 d5 2c 20 20 20 20 41 64 6f 6e |e-tzeh., Adon|
00000070 61 69 20 20 20 20 20 20 45 2d 6c 6f 2d 68 65 69 |ai E-lo-hei|
00000080 d5 2d 6e 75 20 2c 20 20 20 20 20 20 20 62 65 2d |.-nu , be-|
00000090 61 6d 2d 63 68 61 d5 20 20 20 20 20 20 20 20 79 |am-cha. y|
000000a0 69 73 2d 72 61 2d 65 6c d5 20 0d 62 65 20 70 6c |is-ra-el. .be pl|
000000b0 65 61 73 65 64 2c 20 20 20 20 41 64 6f 6e 61 69 |eased, Adonai|
答案1
我最终找到了解决方案,并想将其写下来以防其他人遇到类似的问题。
我使用我找到的一个网站来尝试所有的编码,直到我找到一个可以正确呈现希伯来语的编码,尽管带有神秘的字符分隔符。
https://www.motobit.com/util/charset-codepage-conversion.asp
我可以通过使用@user1686 的建议使用来自的十六进制值hexdump
并与编码表进行交叉引用来验证这一点。
最终发现该文件的编码为 x-mac-hebrew