我想知道如何自动从不同的网站复制文本。我正在建立一个属于某些协会的公司数据库。该网站有一个公司列表,其中包含每个公司的描述,我正在手动复制这些描述。有没有办法创建一个宏并自动执行此操作,因为它一遍又一遍地重复相同的过程。
或者有人知道我可以用哪种语言开发类似的东西吗?谢谢,
答案1
您正在寻找一种称为 的技术web scraping
。您可以使用它从不提供获取数据的 API 的网站收集数据。有很多工具可以做到这一点,也有很多针对不同语言的库可以做到这一点(例如,BeautifulSoup
python 的库)。请注意,在未经许可的情况下不断抓取/攻击网站时,您可能会遇到法律问题。
答案2
在“软件推荐”中有优秀网页抓取应用程序列表,它们都可以满足您的需要。
如果您刚开始使用屏幕抓取,带有记录器的工具可能是最好的选择器。这样可以避免手动创建所有选择器。但是没有一种解决方案可以神奇地适用于每个网站,即使是带有记录器的工具也需要针对每个页面进行一些调整。