我经常处理 17 至 1800 年代的文本,这些文本(除了现在已经过时的单词外)包含拼写略有不同的熟悉单词。这些文本以及我正在撰写的文本的语言由于单词的平均长度较高(德语),因此必须进行大量连字符连接。更复杂的是,这种语言对连字符的连接规定比英语等语言要严格得多。[这并不意味着下面的问题仅限于德语。]
在 *TeX 中,这会导致一个问题:当对一个拼写古体字的单词进行连字符连接时,*TeX 别无选择,只能应用它在其他地方应用的相同规则,因为它无法判断当前的拼写是否是古体字。通常,这会导致连字符连接不符合古体德语和现代德语标准。
一个典型的例子:
很多德语单词th
过去都带有 ,而现在只带有t
。例如Teil
(=part),这种拼写方式Theil
直到现在都th
不再流行,甚至在 1900 年左右从官方词典中被删除——可能是因为它冗余,因为 不会h
对发音产生影响,这与英语不同。如今,只有少数德语单词保留了Th
,例如Thron
(=throne),因为他们不想在正式更改拼写规则时冒犯皇帝。
这对 *TeX 很重要,因为在今天的德语中,那样消除 th
,字母t
和h
几乎不构成一聲。因此,如果我们遇到一个现代德语单词th
中带有 a ,这种情况经常发生,它通常是一个由两个或多个音节(或单词)组成的单词 - 其中第一个以 结尾t
,第二个以 开头h
。例如,flathead
在英语中。但是声音是德语连字实践的基础,而 *TeX 知道这一点。因此在 *TeX 中,theil
in beurtheilen
(=to judge)的古老拼写将导致连字be-urt-heil-en
,这是不可接受的,因为在这种情况下, thet
和 theh
在声音和意义上都属于同一类。
我的问题是:这个问题有没有得到解决?我找不到任何证据表明这个问题已经得到解决。除了使用手动单词表,我们还有其他选择吗\hyphenation{...}
?……这在德语中尤其乏味,因为每个潜在的关键单词可能都有十几个针对不同性别、大小写等的版本。