有一个主机和一个端口(支持 TCP),http 服务正在其上运行。简单
wget host:port
没有返回任何内容。是否可以获取该主机(和给定端口)上所有可查看的可访问文件(html 或 txt)的列表?
也许有一些模式
wget host:port/*.[html|txt]
或者其他的东西
答案1
此命令……
$ wget --spider DOWNLOAD-URL
将检查是否DOWNLOAD-URL
可以下载。
您可以查看此链接以获取更多选项wget
:终极 wget 指南。另请查看手册以wget
了解更多有趣的选项。
答案2
尝试使用带有site:
运算符的 Google 搜索。
示例:我想找出托管在 上的 URL nlp.stanford.edu:8080
。解决方案:我转到 Google 搜索并输入搜索词site:nlp.stanford.edu:8080
。然后,我使用 wget 开始从搜索结果中找到的所有 URL 进行爬取。