使用 bash，如何从 html 文件中提取特定图像的 URL 和标题文本？

Question

我最近也遇到了类似的问题，经过无数个小时的挫折，我最终使用了带有 BeautifulSoup4 的 Python，我应该从一开始就使用它——我认为你也应该这样做。它使用起来要容易得多，因为它实际上是为这种类型的练习（即解析 HTML）而构建的。你可以使用 BS4 轻松编写 Python 脚本，将所有图像 URL 收集到一个文件中，然后从 bash 调用该脚本。

这就是我要做的。

编辑：

以下是一个简单示例：

#!/bin/python

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html")) 

for link in soup.findAll("img", {"id": "foo"})
  print(link['src'])

显然，这只会检查一个文件（index.html）并打印指向 stoud 的链接。为了达到您的目的，您可以用 python 编写整个内容（即循环遍历此处的文件）或将文件名从 bash 传递到您的 python 脚本。无论如何，您可能希望将 URL 写入输出文件。

with open('output.txt', 'a') as out:
 out.write(link['src'])

Answer 1

我最近也遇到了类似的问题，经过无数个小时的挫折，我最终使用了带有 BeautifulSoup4 的 Python，我应该从一开始就使用它——我认为你也应该这样做。它使用起来要容易得多，因为它实际上是为这种类型的练习（即解析 HTML）而构建的。你可以使用 BS4 轻松编写 Python 脚本，将所有图像 URL 收集到一个文件中，然后从 bash 调用该脚本。

这就是我要做的。

编辑：

以下是一个简单示例：

#!/bin/python

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html")) 

for link in soup.findAll("img", {"id": "foo"})
  print(link['src'])

显然，这只会检查一个文件（index.html）并打印指向 stoud 的链接。为了达到您的目的，您可以用 python 编写整个内容（即循环遍历此处的文件）或将文件名从 bash 传递到您的 python 脚本。无论如何，您可能希望将 URL 写入输出文件。

with open('output.txt', 'a') as out:
 out.write(link['src'])

使用 bash，如何从 html 文件中提取特定图像的 URL 和标题文本？

编辑：95% 的答案由 JoW 在下面回答，最后几个细节如下

答案1

相关内容