![Wget 站点镜像,带有 rel=" 的链接“未关注](https://linux22.com/image/1308973/Wget%20%E7%AB%99%E7%82%B9%E9%95%9C%E5%83%8F%EF%BC%8C%E5%B8%A6%E6%9C%89%20rel%3D%22%20%E7%9A%84%E9%93%BE%E6%8E%A5%E2%80%9C%E6%9C%AA%E5%85%B3%E6%B3%A8.png)
在 Ubuntu 上使用 wget 1.12 创建站点镜像时,rel
设置了属性的链接不会被下载:
<a href="link" rel="tag">text</a>
Rel="tag" 是一种微格式(通过添加rel="tag"
超链接,页面表明该超链接的目的地是作者为当前页面指定的“标签”(或关键字/主题))。
我的 WordPress 主题使用它来链接标签,因此 99% 的网站内容被忽略。
编辑:事实证明我的所有永久链接都被使用rel="bookmark"
并且被跳过了。
我正在使用以下 wget 命令(这将忽略 robots.txt 并且还会遵循 nofollow 链接):
wget -mkp -e robots=off http://site
如何通过rel
set 让 wget 跟随链接?
答案1
我从源代码编译了 wget 1.13,并修复了该问题(虽然我不是在谈论 CSS 链接,但我认为是这一行):解析 CSS 文件中的链接,以及 HTML 样式标签和属性中的 CSS 内容):
cd /tmp
wget ftp://ftp.gnu.org/gnu/wget/wget-1.13.tar.gz
gunzip < wget-1.13.tar.gz | tar -xv
cd wget-1.13
./configure --with-ssl=openssl
make
sudo make install
mkdir ~/bin
sudo echo "export PATH=$PATH:~/bin" >> ~/.bashrc
cp /usr/local/bin/wget ~/bin