如何列出文件夹中已保存的 html 文件的源 URL?

如何列出文件夹中已保存的 html 文件的源 URL?

我在一个文件夹中有很多 html 文件。我在一个项目中使用了它们。我想创建一个 References.txt 文件,其中将列出每个 html 文件的保存 URL 以及保存的时间戳。每个 URL 与其对应的时间戳之间会有一个空格。

我怎样才能使用终端命令或 shell 脚本从 Ubuntu 12.04 执行此操作?

有一条信息可以帮助您:保存 html 文件的 URL 位于 html 文件的第二行,在浏览器中打开文件然后转到源视图也可以看到它。但我不知道如何使用命令从那里提取它。

其中一个文件的前两行:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<!-- saved from url=(0084)http://www.forexrealm.com/technical-analysis/technical-indicators/typical-price.html -->

答案1

在包含文件的目录中运行以下命令html

for f in *.html; do echo $(cat "$f" | sed -n '2p' | grep -o 'http://.*\.html') $(stat -c %y "$f");  done > References.tx

脚本:

#!/usr/bin/bash

ref_file='References.txt';
> "$ref_file";

for html in *.html
do
    mtime=$(stat -c %y "$html")
    address=$(cat "$html" | sed -n '2p' | grep -o 'http://.*\.html')
    echo "$address $mtime" >> $ref_file;
done

相关内容