转换字符集(德语)

转换字符集(德语)

我有一个文本文件,它以当前非标准的方式使用 128+ 范围内的各种字符。命令file只是说Non-ISO extended-ASCII

从上下文中我可以认识到这些:

Octal 201: u + unlaut
      204: a + umlaut
      216: A + umlaut
      224: o + umlaut
      341: double s

(还有许多其他的,我怀疑是图形符号,而不是字符。)

添加, 例子:

 example:   E0X A ANCIENT.IMG 2 0 C:\DOS\DISKOPT.EXE A: /O /Sa /M2
              ДВД В ДДВДДДДДДДД В Д ДДДДДДДВДДДДДДДДДД ДДДДДДДВДДДДД
           і  і   і         і          і                  і
     load E0X ДЩ  АДДДДДДДДДї   і          і                  і
                      і     і   і          і                  і
     with ANCIENT.IMG Щ     і   і          і                  і
                            і   і          і                  і
     for drive A: ДДДДДДДДДДЩ   і          і                  і
                                і          і                  і
     let DISKOPT work ДДДДДДДДДДіДДДДДДДДДДБДДДДДДДДДДДДДДДДДДЩ
                    і
     and write the result back to disk if finished.

(图形字符为八进制 263、277、302、304、331。)

以下是文件链接:存档文件。是的E0X.ENG,但我猜所有文本文件中的编码都相同。

这是哪种字符集?如何使其在现代计算机上可读?

答案1

您提到的字符位置很可能是八进制数:201(通常写为 0201 以表明它是八进制)是十进制 129 或 0x81。

这些字符与几个 DOC 代码页一致:

  • VGA 代码页 437(VGA ROM 字符集)
  • 代码页 437(IBM-PC:默认)
  • 代码页 775(IBM-PC:波罗的海)
  • 代码页 850(IBM-PC:欧洲)
  • 代码页 852(IBM-PC:东欧)
  • 代码页 857(IBM-PC:土耳其语)
  • 代码页 861(IBM-PC:冰岛语)
  • 代码页 865(IBM-PC:北欧)

如果是德语,我敢打赌它是 437 或 850。任何编辑器都应该能够读取该文本文件并以不同的字符集写入它。

例如,如果您确定需要,您可以使用 Notepad++ 读取它,并以 UTF-8 格式写入它。

PS 在阅读您附加的文件后,我可以看到 E0X.ENG 字符集是 MS-DOS 代码页 437。您可以看到它转换为 utf-8https://pastebin.com/LdnQCpk4

如果您在 Linux 上运行,则可以使用 GNU 自动进行转换recode。如果您在 DOS 上运行,我会看到此recode实用程序https://docs.seneca.nl/Smartsite-Docs/Features-Modules/Features/Tools/Recode-commandline-utility.html应该做同样的事情

相关内容