我无法递归下载网站上使用框架内链接的某些页面以及这些框架中的进一步链接。它来自在线中文词源词典中文网。
典型页面的 html 如下所示:
<FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*>
<FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=mainFrame>
<FRAMESET BORDER=1 FRAMEBORDER=1 COLS=250,*>
<FRAME frameborder=no NORESIZE SRC=http://zhongwen.com/s/bushou.htm NAME=f1>
<FRAME NORESIZE SRC=http://zhongwen.com/d/198/x126.htm NAME=f2>
</FRAMESET>
</FRAMESET>
在框架内,主要链接是http://zhongwen.com/d/198/x126.htm,其中有 html:
<head>
<FRAMESET border=1 framespacing=0 frameborder=1 COLS="245,*">
<FRAME SRC="**../../d/198/d126.htm**" NAME="f3">
<!--
<FRAME MARGINHEIGHT=0 SRC="../../t/115.htm#23" NAME="f4">
-->
<FRAME SRC="../../d/198/t126.htm" NAME="f4"></FRAMESET>
</head>
</MAP></MAP>
还有几个进一步的链接,其中一个,http://zhongwen.com/d/198/x126.htm,有html:
<head><base target="f2"></head>
<BODY bgcolor="FFFFFF">
<A NAME="23"></A>
<IMG border=0 src="http://zhongwen.com/d/198/d126.gif" USEMAP="#a">
...
我尝试使用 wget 和 httrack,但它们都只下载初始页面。之前提出的这个问题的答案没有帮助,手册页上也没有选项。
httrack -Y --near -%P -*p3 -r9999 -B http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F
wget --restrict-file-names=nocontrol --ignore-length --html-extension --tries=3 --timeout=30 --no-http-keep-alive --cookies=off --page-requisites --convert-links -m -H --follow-tags=FRAME,IMG http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F
任何人都可以建议其他尝试,或者如果我做错了什么?
谢谢
答案1
我尝试过wget2
,并注意到机器人.txt还有其他东西:
Disallow: /s/
Disallow: /d/
您应该尊重域名所有者的规则,并仅在以下情况下关闭此验证:非常很好的理由。如果该路径未被禁止,wget
(机器人)就会通过它进行检索。