用连字符连接具有古体拼写的单词

用连字符连接具有古体拼写的单词

我经常处理 17 至 1800 年代的文本,这些文本(除了现在已经过时的单词外)包含拼写略有不同的熟悉单词。这些文本以及我正在撰写的文本的语言由于单词的平均长度较高(德语),因此必须进行大量连字符连接。更复杂的是,这种语言对连字符的连接规定比英语等语言要严格得多。[这并不意味着下面的问题仅限于德语。]

在 *TeX 中,这会导致一个问题:当对一个拼写古体字的单词进行连字符连接时,*TeX 别无选择,只能应用它在其他地方应用的相同规则,因为它无法判断当前的拼写是否是古体字。通常,这会导致连字符连接不符合古体德语和现代德语标准。

一个典型的例子:

很多德语单词th过去都带有 ,而现在只带有t。例如Teil(=part),这种拼写方式Theil直到现在都th不再流行,甚至在 1900 年左右从官方词典中被删除——可能是因为它冗余,因为 不会h对发音产生影响,这与英语不同。如今,只有少数德语单词保留了Th,例如Thron(=throne),因为他们不想在正式更改拼写规则时冒犯皇帝。

这对 *TeX 很重要,因为在今天的德语中,那样消除 th,字母th几乎不构成一聲。因此,如果我们遇到一个现代德语单词th中带有 a ,这种情况经常发生,它通常是一个由两个或多个音节(或单词)组成的单词 - 其中第一个以 结尾t,第二个以 开头h。例如,flathead在英语中。但是声音是德语连字实践的基础,而 *TeX 知道这一点。因此在 *TeX 中,theilin beurtheilen(=to judge)的古老拼写将导致连字be-urt-heil-en,这是不可接受的,因为在这种情况下, thet和 theh在声音和意义上都属于同一类。

我的问题是:这个问题有没有得到解决?我找不到任何证据表明这个问题已经得到解决。除了使用手动单词表,我们还有其他选择吗\hyphenation{...}?……这在德语中尤其乏味,因为每个潜在的关键单词可能都有十几个针对不同性别、大小写等的版本。

答案1

规范方法是使用专用的连字模式。我不知道 1901 年之前的德语拼写模式,但只要稍微努力一下,应该可以准备一些。

作为 GoogleNgram 查看器您可以找到不同语言(包括德语)的带注释出版年份的单词语料库,这些语料库可用于准备 1800 年至 1900 年之间出版的书籍中的德语单词列表。此类列表需要使用连字符(可以使用现有的德语模式完成)并检查是否存在您描述的错误情况。最后,可以从该列表中生成模式。

我想邀请你加入德国模式项目[电子邮件保护]。我们可以在那里更详细地讨论这个问题。

相关内容