我有一个index.html
包含 PDF 文件的 href 链接的文件。
当我这样做时:grep -i 'href=' index.html
,我得到例如:
<p>Télécharger : <a href="https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2019_Henrot-Versillé-C1_L1.pdf"><span style="color: #0000ff;">Cours n°1</span></a> (S. Henrot-Versillé), <span style="color: #0000ff;"><a href="https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2019_Henrot-Versillé_C1_L2.pdf">Cours n°2</a></span> (S. Henrot-Versillé), <a href="https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Henrot-Versillé_C3.pdf"><span style="color: #0000ff;">Cours n°3</span></a> (S. Henrot-Versillé)</p>
<p>Télécharger le cours sur <a href="https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Martinelli_C2_L1_Bayesian.pdf">la méthode bayésienne</a> (M. Martinelli) et <a href="https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Martinelli_C2_TD_Bayesian.pdf">son TD</a> (M. Martinelli).</p></div>
<p><a href="https://github.com/mhuertascompany/EDE19" title="GitHub Deep Learning 2019 EDE">https://github.com/mhuertascompany/EDE19</a></p>
<p><a href="https://colab.research.google.com/drive" title="TDs Deep Learning 2019">https://colab.research.google.com/drive</a></p></div>
<a href="https://www.facebook.com/euclid.france" class="icon">
<a href="https://twitter.com/Euclid_FR" class="icon">
<a href="#" class="icon">
<a href="https://ecole-euclid.cnrs.fr/feed/" class="icon">
现在,我想通过 gsed(在 MacOS Catalina 上)通过管道传输 grep 的输出,以便提取 PDF 文件的所有完整 href,即使同一行上有多个 PDF 链接也是如此。
我首先尝试过:
grep -i 'href=' index.html | gsed 's/href="\(.*pdf\)"/\1/g'
但这不起作用,正如您所看到的,我只会打印第一个 PDF 链接,而不是所有 PDF 链接(在同一链接上),所以此外,如何打印所有模式匹配?
目标是在此之后下载index.html
文件中存在的所有 PDF 文件
任何帮助都会很棒。
答案1
既然你有 GNU sed,你就可以安装 GNU awk。使用用于多字符 RS 和 RT 的 GNU awk:
$ awk -v RS='href="http[^"]+.pdf"' -F'"' 'RT{$0=RT; print $2}' file
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2019_Henrot-Versillé-C1_L1.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2019_Henrot-Versillé_C1_L2.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Henrot-Versillé_C3.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Martinelli_C2_L1_Bayesian.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Martinelli_C2_TD_Bayesian.pdf
否则,在每个 UNIX 机器上的任何 shell 中使用任何 awk:
$ awk '{
while ( match($0,/href="http[^"]+.pdf"/) ) {
split(substr($0,RSTART,RLENGTH),f,/"/)
print f[2]
$0 = substr($0,RSTART+RLENGTH)
}
}' file
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2019_Henrot-Versillé-C1_L1.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2019_Henrot-Versillé_C1_L2.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Henrot-Versillé_C3.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Martinelli_C2_L1_Bayesian.pdf
https://ecole-euclid.cnrs.fr/wp-content/uploads/EDE2018_Martinelli_C2_TD_Bayesian.pdf
只需将该输出传送到xargs -n 1 curl -O
, 即可下载 PDF(假设 URL 中没有空格)。