如何下载整个主题为 pdf/html

如何下载整个主题为 pdf/html

我尝试了所有非程序员用户可以下载的线程这里但总体来说没有成功。

我的目标是下载一个帖子的 html 版本具有浏览页面的能力,如果这不可能的话,我甚至用 pdf 也可以。我无法手动执行此操作,因为我想下载的一些线程有 1k+ 页,例子。如果下载 html 需要太多精力,那么我甚至可以下载 pdf。

希望你们能帮上忙。谢谢。

附言:作为一个新手,我可能对最著名的应用程序 HTTracks 使用了错误的设置,我遇到了镜像错误并在网上查找了如何修复,但没有成功。

Pps:我尝试使用 wget,但没有成功,因为我收到错误:“503 服务暂时不可用”。我甚至在 Mac 上尝试了 curl 命令,但结果是一个仅显示 ddos​​ 保护加载屏幕的 html 文件。

编辑:httrack 可以下载,但似乎有一个“自动重定向”,所以当我打开文件几秒钟后,我会看到线程,但即使我在线,网站也会将我重定向到主页。

答案1

这个例子特别容易做,因为访问每个页面的 URL 很简单: https://www.forexfactory.com/thread/57639-technical-analysis-fallacy?page=NUMBER

您可以使用免费自动热键

以下示例脚本将使热键 F12 位置到达所有页面并打印每个页面:

baseURL=https://www.forexfactory.com/thread/57639-technical-analysis-fallacy?page=
baseFilename=C:\Temp\technical-analysis-fallacy-page-

F12::
Loop,3173
{
    index=%A_Index%                         ; keep loop index
    pageURL = %baseURL%%index%              ; URL of current page
    fileName = %baseFilename%%index%.pdf    ; file name for current page
    WinActivate, ahk_exe chrome.exe         ; ensure chrome is active
    Sleep, 1000
    SendInput, !d                           ; alt-d positions to address filed
    Sleep, 200
    SendInput, ^a                           ; ctrl-a selects all of it
    Sleep, 200
    SendInput, {Del}                        ; delete current address field content
    Sleep, 200
    SendInput, %pageURL%{Enter}             ; enter page url and execute
    Sleep, 2000
    SendInput, ^p                           ; enter print menu      
    Sleep, 2000
    SendInput, {Enter}                      ; execute the Save button
    Sleep, 2000
    SendInput, %fileName%{Enter}            ; set the file name snd enter to execute
}

使用说明:

  • 您必须首先确保“另存为 PDF”是 Chrome 的默认打印机。打印一次即可将其设置为默认打印机。
  • 执行前必须启动 Chrome
  • 你可以从小于 3173 的数字开始,也许是 2 或 3,直到你确定它正常工作
  • 关闭打印机,以防万一。

安装 AutoHotKey 后,将上述文本放入一个.ahk文件中并双击进行测试。您可以通过右键单击托盘栏中的绿色 H 图标并选择退出来停止脚本。

有用的 AutoHotkey 文档:

相关内容