从网页获取文本和链接

Question 1

嗯，经过我自己的广泛研究，我猜测，没有这样的工具......

然而，无论如何，我确实发现 hxnormalize 使得编写我需要的特定脚本变得相对简单。

Answer

嗯，经过我自己的广泛研究，我猜测，没有这样的工具......

然而，无论如何，我确实发现 hxnormalize 使得编写我需要的特定脚本变得相对简单。

Question 2

您可以使用lynx -dump。它将[16]在每个链接前包含一个数字，然后在文档末尾包含一个 URL 列表。

对于管道用法，您可以使用lynx -dump -force_html -stdin。但是，它无法正确处理相对链接，因为它不知道原始 URL。

因此，最好的办法就是lynx -dump http://.../不要分开curl。

Answer

您可以使用lynx -dump。它将[16]在每个链接前包含一个数字，然后在文档末尾包含一个 URL 列表。

对于管道用法，您可以使用lynx -dump -force_html -stdin。但是，它无法正确处理相对链接，因为它不知道原始 URL。

因此，最好的办法就是lynx -dump http://.../不要分开curl。

Question 3

我认为-o display_link_number=1可以实现您的要求，例如：

$ w3m -dump -o display_link_number=1 http://example.org
Example Domain

This domain is for use in illustrative examples in documents. You may use this
domain in literature without prior coordination or asking for permission.

[1]More information...


References:

[1] https://www.iana.org/domains/example

Answer

我认为-o display_link_number=1可以实现您的要求，例如：

$ w3m -dump -o display_link_number=1 http://example.org
Example Domain

This domain is for use in illustrative examples in documents. You may use this
domain in literature without prior coordination or asking for permission.

[1]More information...


References:

[1] https://www.iana.org/domains/example

从网页获取文本和链接

答案1

答案2

答案3

相关内容