我想从 HTML 页面中提取链接来下载图片，我有几千个这样的 HTML 文件。我该怎么做？

Question 1

根据输入文件的复杂程度，我建议不要尝试使用等来解析 HTML awk，grep而是使用 HTML 解析器。对于类似的任务，我使用山猫，这文本模式浏览器。要安装它，一个简单的sudo apt install lynx就足够了。然后：

for file in *.html; do
    lynx -dump -listonly -nonumbers $file >> links.txt
done

对于您的示例代码片段，它会创建以下输出：

file:///imagelibrary/large/009514HB.JPG

完成后，file://需要用适当的基本 URL 替换该部分：

sed -i 's|file://|https://www.dermquest.com|' links.txt

结果：

https://www.dermquest.com/imagelibrary/large/009514HB.JPG

Answer

根据输入文件的复杂程度，我建议不要尝试使用等来解析 HTML awk，grep而是使用 HTML 解析器。对于类似的任务，我使用山猫，这文本模式浏览器。要安装它，一个简单的sudo apt install lynx就足够了。然后：

for file in *.html; do
    lynx -dump -listonly -nonumbers $file >> links.txt
done

对于您的示例代码片段，它会创建以下输出：

file:///imagelibrary/large/009514HB.JPG

完成后，file://需要用适当的基本 URL 替换该部分：

sed -i 's|file://|https://www.dermquest.com|' links.txt

结果：

https://www.dermquest.com/imagelibrary/large/009514HB.JPG

Question 2

将其分解成几个步骤，您需要：

处理一堆文件（名为*.html？）。
提取类似的行<a href="/imagelibrary/large/009514HB.JPG" ...。
提取文件名部分（“ 009514HB.JPG”）

使用文件名部分生成文本。

find . -type f -name '*.html' -print0 | \
    xargs -0 -r grep --no-filename "a href=" | \
    grep -E -o '[0-9A-Z]+\.JPG'

然后，通过将上述内容包装在for $()构造中，我们得到：

for i in $( find . -type f -name '*.html' -print0 | \
    xargs -0 -r grep --no-filename "a href=" | \
    grep -E -o '[0-9A-Z]+\.JPG'
          ) ; do
    echo "https://www.dermquest.com/imagelibrary/large/$i"
done

当然，阅读man find，，man xargs。man grep

Answer

将其分解成几个步骤，您需要：

处理一堆文件（名为*.html？）。
提取类似的行<a href="/imagelibrary/large/009514HB.JPG" ...。
提取文件名部分（“ 009514HB.JPG”）

使用文件名部分生成文本。

find . -type f -name '*.html' -print0 | \
    xargs -0 -r grep --no-filename "a href=" | \
    grep -E -o '[0-9A-Z]+\.JPG'

然后，通过将上述内容包装在for $()构造中，我们得到：

for i in $( find . -type f -name '*.html' -print0 | \
    xargs -0 -r grep --no-filename "a href=" | \
    grep -E -o '[0-9A-Z]+\.JPG'
          ) ; do
    echo "https://www.dermquest.com/imagelibrary/large/$i"
done

当然，阅读man find，，man xargs。man grep

我想从 HTML 页面中提取链接来下载图片，我有几千个这样的 HTML 文件。我该怎么做？

答案1

答案2

相关内容