简单的文本浏览器网站访问但受 CloudFlare 保护 - JavaScript 问题

2024-6-12 • tag-icon

于 2022 年 11 月 13 日 (DD-MM-YYYY) 进行编辑以澄清一些事情：

我，一个人，只想简单地阅读一个网站的文本内容，而该网站恰好受到 CloudFlare 保护。是的，我知道这种保护对于防止垃圾邮件机器人造成任何伤害很有用。 但我是一个人谁似乎甚至没有机会证明我的人性。我想要的只是用文本浏览器阅读网站，保存一些信息（就像人类可以做的那样）会更好。

我不认为像文明人一样简单地阅读网站文本内容的方法有什么不好，甚至是非法的。这难道不是网站首先提供信息的原因吗？

你好 stackexchange 社区！

经过几个小时的研究并在编码时尝试不同的事情......我现在认为我最好的选择是询问一些 Linux 和编程专业人士，就像我将在这里找到的那样。

所以，我的任务其实很简单。我想执行一个（例如批处理）脚本，访问某个网站并且保存 HTML 输出到一个文本文件。

有问题的关于网站：是受 CloudFlare 保护;JavaScript需要，lynx 不支持）。

因此，我想开发一个简单的解决方案，以某种方式使用 Java 或 Linux（例如批处理）。它一定要是尽可能轻-那就是我的地方头痛似乎开始了。

我在 github 上遇到了一个在线列表，该列表旨在总结各种编程语言的所有无头（文本）浏览器。遗憾的是，它们中的大多数需要使用大约 20 个依赖项，以我的愚见，这既不合适也不可行。

此外，在我对 StackOverflow 的研究过程中，我遇到了相当类似的问题。就像这个解决方案：无法使用curl或wget下载URL，但它可以在浏览器中使用

因此，似乎有一个使用curl并传输一些启动参数的解决方案，然后将其用于克服JavaScript/CloudFlare障碍。

但是，恐怕我似乎无法让这段代码正常运行。

这似乎也很好地总结了我的问题，但遗憾的是，没有对我有用的答案：使用支持 JS 的浏览器保存网页的命令行工具

有人可以给我一些关于下一步该去哪里看的小提示吗？

我的小项目很重要：尽可能轻量级，不需要人类用户交互！

亲爱的社区，非常感谢您以任何可能的方式帮助我！我向您致以最诚挚的问候 - 我期待收到各位专业人士的来信:-)

相关内容