我如何从网站上抓取文本?

我如何从网站上抓取文本?

Schemer 即将关闭,我试图保留文本,因为网站上有很多好的想法。我想从网站上列出的每个链接中获取文本网站地图

有什么办法吗?HTTrack 无法按我期望的方式运行。

答案1

获得是用于此类任务的经典命令行工具。它随大多数 Unix/Linux 系统提供,您也可以在 Windows 上获取它。

你会做类似的事情:

wget -r --no-parent https://www.schemer.com/sitemap?lo=1

有关详细信息,请参阅Wget 手册和它的例子或者看看这些:

http://linuxreviews.org/quicktips/wget/

http://www.linuxjournal.com/content/downloading-entire-web-site-wget

相关内容