尝试从 html 页面中提取字段

尝试从 html 页面中提取字段

我正在尝试从在线表单中提取一个字段到我的本地电脑。

我可以将页面保存为本地文本文档,然后搜索文本,但这似乎比较麻烦。还有其他更有效的方法吗?

我的背景是 Mac,但公司正在试用使用 Ubuntu 12.04 的 PC,所以请容忍我的相关无知。

答案1

您正在寻找以下工具

wget -q -O - 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

curl -s 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

lynx -dump 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

然后您可以使用通常的方法提取您想要的内容sed,,awk..

如果您能说出哪个页面以及要提取什么内容,那将会很有帮助。

答案2

我不能 100% 确定我了解您真正需要什么,但您可以直接在浏览器中获取 HTML 源代码。

如果您使用 Firefox,您可以在浏览器中做很多有趣的事情。

  • 在页面上单击鼠标右键 -> 查看页面源代码(也可以按 ALT 并在 HDU 中搜索源代码)
  • 突出显示您想要获取源代码的页面部分 -> 右键单击​​ -> 查看选择源

如果这还不够的话,您还可以获得大量 Firefox 附加组件,让您可以随意处理 HTML =)

如果这是一项高容量的工作,您可能需要一些脚本来完成工作(下载、使用 perl 或支持正则表达式搜索、提取的程序)。但如果您只是偶尔需要这样做,那么 Firefox 方法可能就足够了?

我理解这个问题正确吗?

相关内容