我正在尝试从在线表单中提取一个字段到我的本地电脑。
我可以将页面保存为本地文本文档,然后搜索文本,但这似乎比较麻烦。还有其他更有效的方法吗?
我的背景是 Mac,但公司正在试用使用 Ubuntu 12.04 的 PC,所以请容忍我的相关无知。
答案1
您正在寻找以下工具
wget -q -O - 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'
curl -s 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'
lynx -dump 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'
然后您可以使用通常的方法提取您想要的内容sed
,,awk
..
如果您能说出哪个页面以及要提取什么内容,那将会很有帮助。
答案2
我不能 100% 确定我了解您真正需要什么,但您可以直接在浏览器中获取 HTML 源代码。
如果您使用 Firefox,您可以在浏览器中做很多有趣的事情。
- 在页面上单击鼠标右键 -> 查看页面源代码(也可以按 ALT 并在 HDU 中搜索源代码)
- 突出显示您想要获取源代码的页面部分 -> 右键单击 -> 查看选择源
如果这还不够的话,您还可以获得大量 Firefox 附加组件,让您可以随意处理 HTML =)
如果这是一项高容量的工作,您可能需要一些脚本来完成工作(下载、使用 perl 或支持正则表达式搜索、提取的程序)。但如果您只是偶尔需要这样做,那么 Firefox 方法可能就足够了?
我理解这个问题正确吗?