我有大约 80 页的英文文本,其中自然包含(不)定冠词。文本是块对齐的。问题是文章有时留在行尾并且名词以另一个名词开头。
输入 1:
The more you get the better you'll see.
输出 1:(该|
字符代表行尾)
The more you get the|
better you'll see. |
从我的角度来看,这非常难以阅读。因此我想阻止这种行为。一种可能的方法是使用~
而不是空格。
输入 2:
The~more you get the~better you'll see.
输出 2:(该|
字符代表行尾)
The more you get|
the better you'll see. |
但是,改变整个文本(the、a、an、in、of、...)似乎是不可能的——因为有太多的词。问题:我可以在序言中添加一些内容以隐式实现~
行为吗?我的意思是有没有一个包可以做到这一点,即使没有显式的~
s?