我正在通过一些网页的curl 或lynx 进行语料库生成。我已经在 bash 中编写了一个程序来剥离 html 代码(例如,当我执行 lynx -source myurl 时),但问题是某些页面具有 JavaScript,它不会被剥离。
有什么办法使用curl或lynx不获取Javascript吗?我确实希望第一个实例中的 html 编码能够获取我的主体数据,这就是为什么我没有使用 lynx -dump 选项(而是使用 lynx -source)。
我想我在这里要求太多了。或者,如果您知道任何可以在 Cygwin 环境中工作的 JavaScript 剥离应用程序,请告诉我。谢谢阅读!