我想知道在哪里可以找到并校对 babel 连字规则。是否可以从这些连字规则中学习(例如对于语言学生而言)连字符应该放在哪里?
答案1
Frank Liang 的论文基于这样的假设:没有简单的规则用于连接美式英语的连字符可以规定下来。
因此,他从后往前开始:从已经连字的单词列表中,他提炼出一组模式,再加上基于这些模式的算法,对英语中较常见的 700 个单词进行了完全连字,并且在数千个单词中找不到错误的连字点(尽管不是全部)。
想从 4447 个(如果我没算错的话)模式中学习规则hyphen.tex
是没有希望的。英式英语有 8527 个模式,你想想看!波兰语的情况也类似,它列出了 4053 个模式。
对于意大利语等语言来说,情况就大不相同了。意大利语必须决定如何用连字符连接一个单词,例如谜团(据我所知,任何字典中都找不到这个词;我把它当做是从以下词典中模仿而来的:难题) 将 毫无 困难 地 选择co-nun-dro
.
这是因为意大利语音节具有严格的结构;辅音群不是任意的,除了最近导入的单词外,辅音群遵循一套相当简单的规则,允许使用同样简单的连字模式文件。该文件列出了 348 种模式,但其中大多数是针对“技术”单词的,这些单词通常按词源而不是常用词的标准规则进行连字。例如,我们发现
di2s3cine
用于连字符dis-cine-sia
或dis-cine-tico
(技术词汇,表示“dyskinesia”和“dyskinetic”),而该sc
组通常是不可分割的,因为它主要表示与英语相对应的二元字母组合sh
。
当克劳迪奥·贝卡里为意大利语编写第一套模式时,他只实现了基本规则,因此文件非常短。此后,模式只是为了处理不太常见的单词而添加的,这些单词的辅音群与旧语音规则产生的辅音群不同。举个例子,集群pl
不是中世纪意大利语的典型特征:拉丁语折叠成为意大利人皮埃加在现代意大利语中,我们也有普利科,后来又进行了改造。
在最近的 TeX 发行版中,捷克语(和斯洛伐克语)的模式文件是
<ROOT>/tex/generic/hyph-utf8/patterns/tex/hyph-cs.tex
并列出了 3636 种模式。冰岛语有 4188 种,存储在
<ROOT>/tex/generic/hyph-utf8/patterns/tex/hyph-is.tex
恐怕只有通过检查已连字符的单词列表才能证明它们是正确的。许多模式意味着“难以表述”的规则,因此单词可能会脱离模式并给出错误或缺失的连字符点。
一个例子是手稿这与美式英语的模式背道而驰。