网络蜘蛛/爬行，我可以做到吗还是只有搜索引擎可以做到？

2024-6-12 • tag-icon

我已经回答了一个关于使用 wget 进行网页抓取的问题。但是当我阅读更多内容时，我意识到我可能正在寻找一个网页爬虫程序。特别是关于网页爬虫能够获取特定数据（如链接或在我的情况下是产品）的部分。
我的网站上的所有产品都有以下命名约定，website.com/uniqueAlphaNumericID.html
据我所知，没有使用动态内容生成，并且每个项目只有一个页面采用上述格式。
我应该只考虑：
wget website.com | grep *.html
还是应该研究蜘蛛/爬虫？

相关内容