httrack

HTTrack Cookies 仅适用于第一级
httrack

HTTrack Cookies 仅适用于第一级

一直在使用 HTTrack 工具并尝试镜像一个网站。该网站有一个主页,需要简单的用户名密码登录。我已成功下载经过身份验证的cookies.txt需要通过登录页面。使用这些选项-%v -n -s0,我设法镜像经过身份验证的主页内的所有内容。但是主页中有一些选项卡,例如:<a href="/homepage/config.navlink.tablink">Config</a>。所有这些选项卡仍未经过身份验证,HTTrack 为我复制了这些选项卡链接的未经身份验证的登录页面。在我看来,cookies.txt不适用于更深层的链接。 Home ...

Admin

在 Httrack 中保存单个 html 文件
httrack

在 Httrack 中保存单个 html 文件

我使用 Httrack 来保存网页。 通常我会添加一个 URL 并镜像网站及其所有子页面,直到我限制深度或拥有所有子页面为止。这样会生成一个 index.html 文件,我可以像在线一样打开并调用各个页面。 但是现在我需要将每个子页面作为单独的 html 文件。如果我使用“获取分离文件”功能执行此操作,则该过程会在程序中链接的主页之后停止。单独调用每个子页面的每个 URL 并将其粘贴到列表中会太麻烦。 有可能吗?我最终想将每个 HTML 文件都转换为 PDF,但首先获取单个文件会更好。 ...

Admin

httrack 因反爬虫保护而无法下载网站
httrack

httrack 因反爬虫保护而无法下载网站

我正在尝试为无法访问其托管登录信息的人克隆整个网站(出于某些原因我不会详述)并且需要所有内容的本地副本: https://www.cowpatch.com/ 它看起来像是用 wordpress 创建的。 我在 Mac 的终端上使用 httrack。这是我运行的命令: httrack https://www.cowpatch.com/ -O "/Users/abe/websites/cowpatch" 它获取了 index.html,但似乎有某种反爬虫机制阻止它获取网站上的其他页面。下载的所有其他 HTML 页面都显示一条消息,内容如下: 反爬虫保护正在...

Admin

尝试从即将关闭的论坛下载帖子,但 HTTrack 无法正确保存图像/菜单/颜色和页面链接
httrack

尝试从即将关闭的论坛下载帖子,但 HTTrack 无法正确保存图像/菜单/颜色和页面链接

笔记本评测将在月底关闭,他们的论坛里有几个帖子,我想在所有信息永远消失之前下载到我的电脑上。 我正在尝试使用HT轨道(实际上是 WinHTTrack)下载线程。例如,假设我要下载此线程: http://forum.notebookreview.com/threads/what-should-we-call-an-nbr-successor.837550/ 此主题有多个页面,第 2 页及以后的 URL 如下所示: http://forum.notebookreview.com/threads/what-should-we-call-an-nbr-succ...

Admin

想要打印出我整个网站的 HTML/CSS
httrack

想要打印出我整个网站的 HTML/CSS

我最近将一个网站从一家托管公司迁移到另一家,同时更改了域名(他们全都做了)。网站已启动并运行,但有很多坏链接 - 我现在只能自己处理,想打印出所有 HTML/CSS 并搜索旧链接,以便更改它们。我查看了 HTTRACK,无法让它执行此操作。非常感谢大家对其他选项的想法。谢谢! ...

Admin

使用 HTTrack 下载 PHP 网站上的特定目录
httrack

使用 HTTrack 下载 PHP 网站上的特定目录

我需要从以下位置复制 PHP/HTML 文件: https://example.com/file.php?page=1 https://example.com/file.php?page=2 https://example.com/file.php?page=3 https://example.com/file.php?page=4 … 我在 HTTrack 中使用了这个。但它没有下载任何文件: -* +https://example.com/file.php?page=* -mime:*/* +mime:text/html 你能给出一个正确的方...

Admin

是否可以使用 httrack 为目标文件夹添加时间戳?
httrack

是否可以使用 httrack 为目标文件夹添加时间戳?

我正在使用 httrack 通过命令行备份我的网站: httrack https://www.example.com -O "websites/example.com" -%v 是否可以向目标文件夹添加时间戳以获取如下目标文件夹: websites/example.com-2019-07-18 ...

Admin

如何使用 httrack 下载网站的部分内容(包括资产)?
httrack

如何使用 httrack 下载网站的部分内容(包括资产)?

我想下载http://www.example.com/foobar从那里链接的每个 HTML 页面,其中 URL 以 开头http://www.example.com/foobar。我还想下载链接的每个非 HTML 资产,无论其路径如何。我试过: httrack http://www.example.com/foobar -mime:text/html +http://www.example.com/foobar* 并补充道: +http://www.example.com/foobar +http://www.example.com/foobar/...

Admin

HTTRACK 正在部分下载
httrack

HTTRACK 正在部分下载

我们正在HTTRACK下载整个网站以供离线查看。 问题是,即使使用 4 级 ( -r4) 下载整个网站,一些链接仍然无法工作。 例如如果你使用 httrack 来捕获网站: http://advaitasharada.sringeri.net/display/bhashya/Gita 它只截取了其中的一部分,但右侧保留了链接。其他链接包含《薄伽梵歌》的其他章节,标有 #fragments。 http://advaitasharada.sringeri.net/display/bhashya/Gita#BG_C02(该链接仅在浏览器点击时有效) ...

Admin

Httrack 和 cookies,我的文件看起来像是没有记录
httrack

Httrack 和 cookies,我的文件看起来像是没有记录

我想要下载网页中课程的所有视频和图像.. 我在用追踪命令行..我已经使用扩展 chrome 下载了我的 cookies... cookies.txt我已经在项目文件夹中设置了... 在我的 cookie 中,我以高级会员身份登录网页 但当我用我的 httrack 扫描时,它没有访问高级部分和索引.html看起来普通用户,未登录 这是我使用的命令 httrack https://www.MYWEB.com/courses/take/Courses/ -O /root/websites/proyectXDD -p3 -B -d -b0 我该怎...

Admin

如何下载需要登录的网站的内容?
httrack

如何下载需要登录的网站的内容?

我尝试使用 Httrack 和 Sitesucker 下载需要登录的网站的内容,但它下载的网页都是类似登录表单、注册和 seekpasswords.html 的内容,没有实际内容。该网站非常类似于 treehouse 或 Udemy,我已购买了课程,但课程将于下个月到期,所以我希望看看我是否可以在内容消失之前保存它(这是否违法?我不知道)。 不过 Httrack 和 Sitesucker 都没有询问我的登录信息。因此,我该如何下载内容,或者说这根本就不可能? 谢谢! ...

Admin

恢复 HTTrack 镜像会话并接受更多 URL
httrack

恢复 HTTrack 镜像会话并接受更多 URL

我正在使用 HTTrack(Mac OS X 终端上的命令行版本)镜像一个网站,镜像突然停止了: PANIC! : Too many URLs : >99999 [3031]f5641dz61e6fd4 (36896 bytes) - OK Done. Thanks for using HTTrack! 进而 * My-Names-iMac:~ username$ (我镜像的网站有大约 150,000 个页面)。我的问题与这个虽然作为命令行工具的初学者,我不确定我是否理解我应该输入什么以及按照什么顺序输入才能从开始的地方恢复中断的下载,...

Admin

如何从在线博客创建电子书
httrack

如何从在线博客创建电子书

我想创建一本在线博客的电子书,以便方便地离线阅读所有帖子。 怎么做呢?我应该从哪里开始呢?也许可以使用 HTTrack 进行下载?以及如何将 html 转换为电子书? ...

Admin

如何下载网站目录中所有编号为(1;2;...;97)的文件
httrack

如何下载网站目录中所有编号为(1;2;...;97)的文件

我一直尝试使用 wget 和 WinTTrack 下载网站上的所有 .png 文件,但似乎找不到方法。更糟糕的是,我知道目录中的所有图片都是从 1.png 到 97.png 编号的... 有什么办法吗?我将不胜感激 ^_^ ...

Admin

克隆基于 GET 请求的网站
httrack

克隆基于 GET 请求的网站

我正在尝试创建一个网站的静态克隆,因为它运行在一些古老的 CMS 上,而它随时都会崩溃。 我尝试过使用httrack和wget,但都不起作用。 问题在于,该网站使用的链接系统与 WordPress 默认使用的类似:单个文件,使用 GET 请求来提供适当的内容(example.com/index.php?name=News)。 HTTrack 只是假设它们是同一个文件并立即停止。Wget 会下载所有内容,但不会替换链接(也不可能提供带有问号的文件)。 是否有支持这种链接模式的工具? ...

Admin