于 2022 年 11 月 13 日 (DD-MM-YYYY) 进行编辑以澄清一些事情:
我,一个人,只想简单地阅读一个网站的文本内容,而该网站恰好受到 CloudFlare 保护。是的,我知道这种保护对于防止垃圾邮件机器人造成任何伤害很有用。 但我是一个人谁似乎甚至没有机会证明我的人性。我想要的只是用文本浏览器阅读网站,保存一些信息(就像人类可以做的那样)会更好。
我不认为像文明人一样简单地阅读网站文本内容的方法有什么不好,甚至是非法的。这难道不是网站首先提供信息的原因吗?
你好 stackexchange 社区!
经过几个小时的研究并在编码时尝试不同的事情......我现在认为我最好的选择是询问一些 Linux 和编程专业人士,就像我将在这里找到的那样。
所以,我的任务其实很简单。我想执行一个(例如批处理)脚本,访问某个网站并且保存 HTML 输出到一个文本文件。
有问题的关于网站: 是受 CloudFlare 保护;JavaScript需要,lynx 不支持)。
因此,我想开发一个简单的解决方案,以某种方式使用 Java 或 Linux(例如批处理)。它一定要是尽可能轻-那就是我的地方头痛似乎开始了。
我在 github 上遇到了一个在线列表,该列表旨在总结各种编程语言的所有无头(文本)浏览器。遗憾的是,它们中的大多数需要使用大约 20 个依赖项,以我的愚见,这既不合适也不可行。
此外,在我对 StackOverflow 的研究过程中,我遇到了相当类似的问题。就像这个解决方案:无法使用curl或wget下载URL,但它可以在浏览器中使用
因此,似乎有一个使用curl并传输一些启动参数的解决方案,然后将其用于克服JavaScript/CloudFlare障碍。
但是,恐怕我似乎无法让这段代码正常运行。
这似乎也很好地总结了我的问题,但遗憾的是,没有对我有用的答案:使用支持 JS 的浏览器保存网页的命令行工具
有人可以给我一些关于下一步该去哪里看的小提示吗?
我的小项目很重要:尽可能轻量级,不需要人类用户交互!
亲爱的社区,非常感谢您以任何可能的方式帮助我!我向您致以最诚挚的问候 - 我期待收到各位专业人士的来信:-)