是否有用于计算网页上特定字符串出现次数的 CLI 命令？

Question 1

您可以 curl url 并将其传递给 grep，如下所示

curl --silent https://www.google.cl | grep -c -i google

还要注意-i，这是一个不区分大小写的搜索。

从文件中批量执行（每行一个 URL）

wordToSearch='google'
#
while read url; do
    curl --silent "${url}" | grep -c -i "${wordToSearch}" >> temp.txt
done < fileWithUrl.txt

Answer

您可以 curl url 并将其传递给 grep，如下所示

curl --silent https://www.google.cl | grep -c -i google

还要注意-i，这是一个不区分大小写的搜索。

从文件中批量执行（每行一个 URL）

wordToSearch='google'
#
while read url; do
    curl --silent "${url}" | grep -c -i "${wordToSearch}" >> temp.txt
done < fileWithUrl.txt

Question 2

我看不到你提到的程序输入或“结果”页面是什么样的，但我会尝试这样解决这个问题：

curl允许您下载网页的源代码。这样curl archive.org/whatever您就可以以纯文本形式获得结果页面。

您可以将其输入到管道中grep并搜索 HTML 的锚标记 ( <a href="location.of/the-linked-page">a description of the link</a>)。以下是可用作起点的 grep 调用：（| grep -o '<a href.*</a>仅打印字符串的匹配部分。您可能需要用类替换和-o之间的空格，或者尝试使用非贪婪形式的，具体取决于您的输入。）您还将检索ahrefspace*全部该页面上的链接，因此需要另一轮（或多轮）grepping来删除导航链接，广告等。

之后，使用，您可以删除诸如、等sed“杂乱信息” ，以便仅检索纯链接。然后，您可以将输出输入到 for 循环中，该循环再次使用 curl 检索这些链接的内容。在<a>href那输出，最后，您可以使用执行单词分析grep -c，正如 vidarlo 提到的。

Answer

我看不到你提到的程序输入或“结果”页面是什么样的，但我会尝试这样解决这个问题：

curl允许您下载网页的源代码。这样curl archive.org/whatever您就可以以纯文本形式获得结果页面。

您可以将其输入到管道中grep并搜索 HTML 的锚标记 ( <a href="location.of/the-linked-page">a description of the link</a>)。以下是可用作起点的 grep 调用：（| grep -o '<a href.*</a>仅打印字符串的匹配部分。您可能需要用类替换和-o之间的空格，或者尝试使用非贪婪形式的，具体取决于您的输入。）您还将检索ahrefspace*全部该页面上的链接，因此需要另一轮（或多轮）grepping来删除导航链接，广告等。

之后，使用，您可以删除诸如、等sed“杂乱信息” ，以便仅检索纯链接。然后，您可以将输出输入到 for 循环中，该循环再次使用 curl 检索这些链接的内容。在<a>href那输出，最后，您可以使用执行单词分析grep -c，正如 vidarlo 提到的。

是否有用于计算网页上特定字符串出现次数的 CLI 命令？

答案1

答案2

相关内容