我定期收到 Google Scholar 的电子邮件。我正在尝试编写一个简单的脚本,让我可以下载 PDF/文章,而 Google 不会通过它们的 URL 跟踪我。
到目前为止,我一直将想要下载的链接复制粘贴到我几乎一直打开的 markdown 文件编辑器中,然后我使用 bash 脚本将 markdown 文件转换为 wget 可以解析的 txt 文件。我通常运行的 bash 脚本(通过键盘快捷键)是:
#!/bin/bash
cd ~/wgetdl
sed 's/.*(\(.*\))/\1/' markdowntowget.md > wgetme.txt
torify wget wgetme.txt
当我浏览互联网并想要“用鼠标突出显示,复制,粘贴,下载所有链接”时,这很有效。但对于谷歌学术链接,我还需要修改链接本身。
因此,简而言之,需要修改上述脚本以便从每一行的开头删除:
https://scholar.google.com/scholar_url?url=
以及此行之后的所有内容:
&hl=en&sa=X&d=
无需修改 URL 的其余部分,我不知道该怎么做。有人知道最简单的方法吗?
此外,任何关于软件(通过 tor 运行)的建议都可以让我跳过所有这些,这真是太棒了。这里的目标是每周下载一堆新的谷歌学术搜索结果,这些搜索结果是针对特定搜索词的,我可以离线阅读,而谷歌不会跟踪我,就像你可以使用 calibre 安排新闻下载一样。我正在运行 debian10。