Curl 或 Lynx:可以剥离 Javascript 吗?

Curl 或 Lynx:可以剥离 Javascript 吗?

我正在通过一些网页的curl 或lynx 进行语料库生成。我已经在 bash 中编写了一个程序来剥离 html 代码(例如,当我执行 lynx -source myurl 时),但问题是某些页面具有 JavaScript,它不会被剥离。

有什么办法使用curl或lynx不获取Javascript吗?我确实希望第一个实例中的 html 编码能够获取我的主体数据,这就是为什么我没有使用 lynx -dump 选项(而是使用 lynx -source)。

我想我在这里要求太多了。或者,如果您知道任何可以在 Cygwin 环境中工作的 JavaScript 剥离应用程序,请告诉我。谢谢阅读!

答案1

我在手册页中没有看到任何关于源代码转换的提及curl。所以我认为答案是“不”。

对于lynx,您会得到大致相同的答案:它对待<script>标签几乎与注释相同(对结束标签进行一些特殊处理)。自2000年左右以来,它就这样做了(指的是变更日志)。

lynx(还)没有从下载中删除注释(和脚本)的选项。

你也许可以使用tidy重新格式化文件以简化脚本编写,使用 DIY 脚本删除工具。例如,使用-wrap具有较大值(例如文件大小)的 会将所有 HTML 标记放在第一列中,允许简单的脚本解析结果并<script>通过丢弃</script>等。

相关内容