在 Ubuntu 上使用 wget 1.12 创建站点镜像时,rel
设置了属性的链接不会被下载:
<a href="link" rel="tag">text</a>
Rel="tag" 是一种微格式(通过添加rel="tag"
超链接,页面表明该超链接的目的地是作者为当前页面指定的“标签”(或关键字/主题))。
我的 WordPress 主题使用它来链接标签,因此 99% 的网站内容被忽略。
编辑:事实证明我的所有永久链接都被使用rel="bookmark"
并且被跳过了。
我正在使用以下 wget 命令(这将忽略 robots.txt 并且还会遵循 nofollow 链接):
wget -mkp -e robots=off http://site
如何通过rel
set 让 wget 跟随链接?
答案1
我从源代码编译了 wget 1.13,并修复了该问题(虽然我不是在谈论 CSS 链接,但我认为是这一行):解析 CSS 文件中的链接,以及 HTML 样式标签和属性中的 CSS 内容):
cd /tmp
wget ftp://ftp.gnu.org/gnu/wget/wget-1.13.tar.gz
gunzip < wget-1.13.tar.gz | tar -xv
cd wget-1.13
./configure --with-ssl=openssl
make
sudo make install
mkdir ~/bin
sudo echo "export PATH=$PATH:~/bin" >> ~/.bashrc
cp /usr/local/bin/wget ~/bin