我有一个文本文件,它以当前非标准的方式使用 128+ 范围内的各种字符。命令file
只是说Non-ISO extended-ASCII
。
从上下文中我可以认识到这些:
Octal 201: u + unlaut
204: a + umlaut
216: A + umlaut
224: o + umlaut
341: double s
(还有许多其他的,我怀疑是图形符号,而不是字符。)
添加, 例子:
example: E0X A ANCIENT.IMG 2 0 C:\DOS\DISKOPT.EXE A: /O /Sa /M2
ДВД В ДДВДДДДДДДД В Д ДДДДДДДВДДДДДДДДДД ДДДДДДДВДДДДД
і і і і і і
load E0X ДЩ АДДДДДДДДДї і і і
і і і і і
with ANCIENT.IMG Щ і і і і
і і і і
for drive A: ДДДДДДДДДДЩ і і і
і і і
let DISKOPT work ДДДДДДДДДДіДДДДДДДДДДБДДДДДДДДДДДДДДДДДДЩ
і
and write the result back to disk if finished.
(图形字符为八进制 263、277、302、304、331。)
和以下是文件链接:存档文件。是的E0X.ENG
,但我猜所有文本文件中的编码都相同。
这是哪种字符集?如何使其在现代计算机上可读?
答案1
您提到的字符位置很可能是八进制数:201(通常写为 0201 以表明它是八进制)是十进制 129 或 0x81。
这些字符与几个 DOC 代码页一致:
- VGA 代码页 437(VGA ROM 字符集)
- 代码页 437(IBM-PC:默认)
- 代码页 775(IBM-PC:波罗的海)
- 代码页 850(IBM-PC:欧洲)
- 代码页 852(IBM-PC:东欧)
- 代码页 857(IBM-PC:土耳其语)
- 代码页 861(IBM-PC:冰岛语)
- 代码页 865(IBM-PC:北欧)
如果是德语,我敢打赌它是 437 或 850。任何编辑器都应该能够读取该文本文件并以不同的字符集写入它。
例如,如果您确定需要,您可以使用 Notepad++ 读取它,并以 UTF-8 格式写入它。
PS 在阅读您附加的文件后,我可以看到 E0X.ENG 字符集是 MS-DOS 代码页 437。您可以看到它转换为 utf-8https://pastebin.com/LdnQCpk4。
如果您在 Linux 上运行,则可以使用 GNU 自动进行转换recode
。如果您在 DOS 上运行,我会看到此recode
实用程序https://docs.seneca.nl/Smartsite-Docs/Features-Modules/Features/Tools/Recode-commandline-utility.html应该做同样的事情