仅在特定的网页列表中精确搜索关键字?

仅在特定的网页列表中精确搜索关键字?

我有 307 个网页 URL 列表。是否可以告诉 Google(或其他搜索引擎)仅在这 307 个网站上精确搜索特定关键字?

我读过一些建议,建议使用脚本或类似程序循环浏览列表,并对每个列表项执行 Google 搜索。但这不会让 Google 认为您是机器人并阻止搜索吗?

另一个建议的方法是使用 wget(可能使用脚本)或类似工具下载这 307 个网页,然后在这些下载的网页中进行本地搜索。但这将花费很长时间,而 Google 搜索几乎可以即时完成。

Google 没有内置从 URL 列表进行搜索的方法吗?

答案1

这里提出了几个问题,我将尝试按正确的顺序回答所有问题。

是否可以告诉 Google(或其他搜索引擎)仅在那 307 个网站上精确搜索特定的关键字?

看看谷歌的搜索选项。您可以通过引用“像这样”来查找确切的术语。然后,您可以按以下方式进行筛选领域(与 url 不同!)使用选项site:。对于您的情况,您可以按照以下格式构建搜索字符串:

"keyword" site:site1.com site:site2.com ...site:site307.com

...使用脚本循环浏览列表...但谷歌不会认为你是一个机器人吗?

通过脚本执行多次 Google 搜索时,一种常见的方法是插入(可能是随机的)延迟以免显得可疑。


...使用 wget 下载这 307 个网页...这将花费很长时间。

如果您需要不时检查这些网站,您可以考虑保存网页的本地副本并定期刷新它们;本地搜索应该会非常快。否则,Google 会更快,因为它使用缓存结果,无需等待连接和下载。但是,除非网站瘫痪或遇到严重问题,否则它应该在 30 秒左右完成。假设您在名为的文件中有一个 URL 列表list.txt,您只需运行:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'查看匹配的内容或:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'查看网址或: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'同时显示两者。


Google 没有内置从 URL 列表进行搜索的方法吗?

是的自定义搜索

使用 Google 自定义搜索,您可以:
- 创建自定义搜索引擎,在指定的网站或网页集合中进行搜索

相关内容