有哪些好的链接提取器?

有哪些好的链接提取器?

链接提取器 - 因为我不知道该给它取一个更好的名字;一个实用程序,它可以获取 .htm 文件,并从中提供链接,不计数,只是直接链接。对于包含大量文本中的 html 链接的文件等很有用...

有人碰巧知道一些吗?

答案1

Firefox,使用Web 开发人员插件,可以做到这一点。打开 HTML 文件,显示 Web 开发人员工具栏。

在信息下拉菜单中,选择“查看链接信息”。它将打开一个新选项卡,其中列出了 HTML 文件中所有链接的列表。

在此处输入图片描述

Firefox 辅助功能扩展还可以在窗口中显示链接列表,但这可能有点小题大做,因为它还为残障人士提供了大量其他功能。

在此处输入图片描述

答案2

我以前曾有一两次需要快速解决这个问题。我的解决方案通常是这样的:

  • 搜索并将“http://”替换为“\r\nhttp://”(将所有 http URL 移至其自己的行上
  • 查找/grep 或以其他方式过滤以“http://”开头的所有行(正则表达式类似于“^http://”)
  • 对筛选结果进行排序,并可选择删除重复行

这是我的快速解决方案,但我之前没有使用过实际工具。不过,我想我可以将其包装在 .bat 或 AutoHotkey 脚本中。我只是不太需要它。

答案3

href="(?<url>(((ht|f)tp(s?))\://)?((([a-zA-Z0-9_\-]{2,}\.)+[a-zA-Z]{2,})|((?:(?:25[0-5]|2[0-4]\d|[01]\d\d|\d?\d)(?(\.?\d)\.)){4}))(:[a-zA-Z0-9]+)?(/[a-zA-Z0-9\-\._\?\,\'/\\\+&amp;%\$#\=~]*)?)"

将是一个可以实现这一点的正则表达式。

答案4

下载文本爬虫(它是免费软件)并安装它。安装完成后启动它。在文件名/过滤器框中输入“*.htm *.html *.php”或您正在解析的 HTML 文件的扩展名。在起始位置框中浏览到文件所在的目录。默认情况下,它还会扫描子目录,如果您不想要此功能,则可以单击选项,然后取消选择“扫描子文件夹”。在查找框中输入:

<a.*?href\s*=\s*["'](.*?)['"].*?>(.*?)</a>

确保“使用正则表达式”旁边有一个复选标记。然后单击“查找”。它将显示按文件分组的所有链接。您也可以单击“提取”,这将弹出一个窗口,其中包含所有文件的所有链接。既然你说你想要链接,我想你想要整个

<a href="something.php">Something</a>

这样您就可以看到链接指向的位置以及描述是什么。如果您只想要没有完整标签的链接,请将 RegEx 更改为

href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\']

这将返回

href="something.php"

如果这回答了你的问题,请告诉我。TextCrawler 是一款很棒的应用程序,而且免费,值得一试。

相关内容