我可以在命令行上查找维基百科文章吗?

我可以在命令行上查找维基百科文章吗?

我有一份知名作家名单,想查找其数据,特别是他们的性别和国籍。有没有办法在命令行上查询这些数据?比如curl something-magic.com 'Frances Burney'让它检索一段好听的段落,然后我可以挖掘有关性别和国籍的信息?或者更好的是,一些更结构化的东西,我可以更容易地解析?我在 Linux 上,如果这有帮助的话。

答案1

如果您很幸运并且您的作者存在于 wiki 中并且他/她的名字只出现过一次(无歧义),那么您可以使用这种方法:

$ cat mywiki.sh

NAME=$(echo $@ | tr " " "_")

wget -O $NAME.html https://en.wikipedia.org/wiki/$NAME
lynx -dump $NAME.html > $NAME.txt
dataurl=$(awk 'sub(/.*www.\wikidata\.org/, "http://wikidata.org") {print; exit}' $NAME.txt)
lynx -dump -nolist $dataurl > $NAME.dat

这样,您将获得页面的 html 代码、包含相同信息但没有 html 标签的 txt 文件以及包含作者(和 wiki 页面)主要数据的 dat 文件(以行数表示)。可以编写另一个过滤脚本来过滤这些文件并编写 csv/html 表,打开后,可以轻松概览必须手动研究的内容。

相关内容