我有几本印刷版的书。它们是在计算机普及之前从英语翻译成挪威语的,所以我用扫描仪扫描了译文,并对其进行了 OCR 处理。英文版已经数字化了。
我需要纠正 OCR 错误,并且还需要将挪威语翻译中的段落与英语原文进行匹配。
看来我应该使用一些翻译记忆库程序,比如 Zanata,作为翻译的工具和存储库,但在此之前,我需要创建一个与现有翻译之间的片段相匹配的 TMX 文件
你知道我该怎么做吗?还是我从错误的角度来解决这个问题?
答案1
如果您搜索“对齐翻译”,您会发现一些专门用于对齐已翻译文档中的段落(或句子)的工具。
我用了sourceforge.net/projects/aligner,它是跨平台的。我对这个工具印象不是特别深刻 - 但就上面的问题而言,它完成了工作(它允许您对齐文本,然后生成 TMX 文件)
然而,我最终放弃了这个工具,原因从上面的问题中看不出来。我需要对齐器输出一个与原始文件完全匹配的文本文件,包括换行符的数量。尽管 LF Aligner 将正在进行的项目存储在文本文件中,但仍存在一些问题:
- 当我第二次打开一个项目时,有些对齐方式就乱了。具体来说,这涉及到我添加空段落的地方。
- 处理原文和译文中的空段落的常见问题。
如果我找到可以做到这一点的工具,我将在此帖子中添加更多信息。