我需要在命令行中抓取一个网页(单页,而不是整个网站)及其所有资产(images/css)。
我非常喜欢谷歌浏览器的做法 - 如果我保存网页,我会得到一个包含所有资产的 html 文件和一个目录。此外,所有图片路径都更改为本地路径,所有链接都是绝对链接(如果是“/pricing”,则变为“http://example.com/pricing“)。
我知道我可以用 来做wget
,但我不喜欢结果——许多目录(如果有来自不同域的图像),并且 html 文件位于目录中的某个地方(带有域名)..
我真的很喜欢使用谷歌浏览器保存页面后的结果,我需要知道您是否知道一些可以产生类似结果的命令行爬虫。
或者您知道如何配置wget
才能按照我的需要进行操作吗?
答案1
谢谢大家的建议!
我需要的是--no-directories
参数wget
。然后我得到一个包含我需要的所有文件(html 文件、图像、css 文件)的目录。
抱歉,问题表述得不太好。