可以将这些网页下载为一本书吗?

可以将这些网页下载为一本书吗?

我想在这里下载 SQL 教程http://www.w3schools.com/sql/default.asp,作为一本书,包含所有链接的 SQL 相关章节。

这是我的命令

wget -r -np -nH  -p -k  http://www.w3schools.com/sql/default.asp

在下载的sql目录下,我得到了一些asp文件,我不知道如何在Chrome中打开这些文件。

我是否正确下载了网页?我该怎么办?谢谢!

答案1

我会使用适当的工具,例如,httrack而不是浪费时间试图从诸如wget或 之类的工具中引诱出来curl。以下是如何下载您所询问的 URL,我自己就是这样做的,甚至在 Chrome 中也能正常工作!

$ httrack http://www.w3schools.com/sql/default.asp
Mirror launched on Sat, 13 Sep 2014 22:50:32 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://www.w3schools.com/sql/default.asp with the wizard help..
Done.57: www.w3schools.com/sql/trysql_view.asp?x= (0 bytes) - OK
Thanks for using HTTrack!

完成后,我留下以下目录结构:

$ ls -l
total 36
-rw-r--r--. 1 slm slm 4243 Sep 13 22:50 backblue.gif
-rw-rw-r--. 1 slm slm  181 Sep 13 22:51 cookies.txt
-rw-r--r--. 1 slm slm  828 Sep 13 22:50 fade.gif
drwx------. 2 slm slm 4096 Sep 13 22:51 hts-cache
-rw-rw-r--. 1 slm slm  736 Sep 13 22:51 hts-log.txt
-rw-r--r--. 1 slm slm 5057 Sep 13 22:50 index.html
drwxr-xr-x. 3 slm slm 4096 Sep 13 22:50 www.w3schools.com

要检查内容,只需导航到index.html根级别的文件,您将看到以下页面:

    SS1

单击链接将带您进入下载的页面:

    SS2

出于测量目的,我在这里单击其中一个侧面链接来演示它可以正常导航。

    SS3

参考

答案2

首先,您应该将当前工作目录复制到测试目录以进行试运行,然后尝试以下操作。

然后你应该运行:

这应该将文件从 asp 页面转换为 html 响应(使用 -O 命令获取网络服务器响应,并在获取后将页面放入 filename.html 文件中)

  wget -O filename.html http://www.w3schools.com/sql/default.asp

然后替换页面中的扩展名

  for f in *.old_file_extention; do mv $f `basename $f to .new_file_extension; done;

然后将所有 .html 页面中页面的 .asp 链接替换为 .html 文件链接

  sed -i 's/.asp/.html/' *.html 

尝试一下;那么您应该能够打开链接
正常工作的网页。您可能需要使用第一个命令解决一些问题,因为它一次只能获取一页。你必须结合你所拥有的。

答案3

尝试 :

wget -r http://www.w3schools.com/sql

是的,我得到了结果

我有以下目录和文件:

mohsen@debian:~/offline docs/www.w3schools.com$ ls
about  angular  aspnet  bootstrap  css  default.asp  favicon.ico  forum  html  index.html  jquery  js  php  robots.txt  sitemap  sql  stdtheme.css  xml

答案4

这可能是一个简短的答案,希望对您有所帮助。我将 wget .asp 文件,然后将其重命名为扩展名为 .html 的文件。这将获取 .asp html 输出并在浏览器中以 .html 形式打开该文件。

相关内容