使用 bash 脚本从 google scholar 链接中删除跟踪,并将其转换为 wget 的非跟踪链接

使用 bash 脚本从 google scholar 链接中删除跟踪,并将其转换为 wget 的非跟踪链接

我定期收到 Google Scholar 的电子邮件。我正在尝试编写一个简单的脚本,让我可以下载 PDF/文章,而 Google 不会通过它们的 URL 跟踪我。

到目前为止,我一直将想要下载的链接复制粘贴到我几乎一直打开的 markdown 文件编辑器中,然后我使用 bash 脚本将 markdown 文件转换为 wget 可以解析的 txt 文件。我通常运行的 bash 脚本(通过键盘快捷键)是:

#!/bin/bash
cd ~/wgetdl
sed 's/.*(\(.*\))/\1/' markdowntowget.md > wgetme.txt
torify wget wgetme.txt

当我浏览互联网并想要“用鼠标突出显示,复制,粘贴,下载所有链接”时,这很有效。但对于谷歌学术链接,我还需要修改链接本身。

因此,简而言之,需要修改上述脚本以便从每一行的开头删除:

https://scholar.google.com/scholar_url?url=

以及此行之后的所有内容:

&hl=en&sa=X&d=

无需修改 URL 的其余部分,我不知道该怎么做。有人知道最简单的方法吗?

此外,任何关于软件(通过 tor 运行)的建议都可以让我跳过所有这些,这真是太棒了。这里的目标是每周下载一堆新的谷歌学术搜索结果,这些搜索结果是针对特定搜索词的,我可以离线阅读,而谷歌不会跟踪我,就像你可以使用 calibre 安排新闻下载一样。我正在运行 debian10。

相关内容