我想创建一个自动化任务,每小时从特定 URL 下载 PDF,然后搜索某些文本,例如“6256896”,然后如果 PDF 中有该文本,则通过电子邮件等方式通知我。
是否可以在不编程的情况下做到这一点?如果是的话怎么办?
答案1
您可以使用 shell 脚本来完成此任务,但您需要编写一些最少的代码行,实际上它是脚本,因此它更像是您通常在终端上键入的复制/粘贴命令。要下载文件,您可以使用 wget。然后假设你的pdf是“干净生成的”(例如从.tex源文件),你将能够使用像pdftotext这样的util(来自ubuntu上的poppler-utils包)提取几乎所有文本,然后你可以轻松地使用mail命令发送邮件。要每小时执行一次,您可以将脚本设置为 cron 作业。
#!/bin/sh
wget http://some_url.com/file.pdf
if [ pdftotext file.pdf - | grep 'pattern' ]
then
mail -u your_user@localhost -s "pattern found inside file.pdf!"
fi