很多时候,我们会在在线论坛中为论坛中使用的典型词汇建立词典,用户在 phpbb 论坛中以以下格式回复
术语:定义
因此,我们的工作是收集所有这些独特的条目以消除噪音,我们通常复制整个页面并对其进行排序以消除噪音:
加入时间:2014 年 1 月 24 日星期五下午 9:49 加入时间:2009 年 6 月 5 日星期五下午 5:57 加入时间:2014 年 7 月 7 日星期一上午 7:20 加入时间:2014 年 7 月 7 日星期一上午 7:20 加入时间:2013 年 11 月 25 日星期一上午 6:46 发帖数:49 发帖数:49 发帖数:49 发帖数:49 帖子:5 帖子:8152 Progessium:一种轻肽
那么命令行或 Python 脚本如何对上述内容进行排序,消除噪音并仅按字母顺序获取条目,例如:
Progessium:一种轻肽