我正在尝试创建一个包含约 22,000 个单词的正确单词表,但其中绝大多数都是拼写错误的。
我需要找到一种方法来标记所有拼写错误 > 删除所有标记的行
或者只是删除任何被认为是拼写错误的单词并用任何内容替换。
我发现唯一的故障排除方法是人们试图从拼写检查词典中删除拼写错误的单词。
有什么想法吗?
PS 下面是一个 GIF 图像,展示了我试图简化的漫长过程:
答案1
在 Linux 中: comm -23 in.txt <(aspell list < in.txt) > out.txt
。
(在 Windows 中,不要使用 Notepad++,而是在 Linux shell 中键入该命令,例如西弗吉尼亚海岸)。
该aspell
命令列出了拼写错误的单词。然后,
该命令仅打印出aspell 输出中缺失的comm
单词。in.txt
答案2
为什么不直接将文本逐部分复制到 MS Word 或任何办公软件中。然后删除拼写错误的单词并保存新副本?