从网站下载具有最新时间戳的文件

从网站下载具有最新时间戳的文件

网站是这样的

在此输入图像描述

无法添加实际网站,因为它来自工作。

这些文件没有版本号,但具有不同的名称。也没有最新的文件链接,这是一个非常小的网站。

您只能通过时间戳来判断哪个是最新的。

想法

  • curl网页,将文件添加到数组中,然后下载索引中的最后一个文件curl

  • curl在网页中,按上传日期对每个文件进行排序,然后从当前日期中减去上传日期,然后下载curl时间差最小的文件?我用来date转换为秒。

打开 bash 解决方案。

有更好的想法吗?

答案1

一种通用方法,使用一种 hacky 方式:lftp可以这样解析:

lftp -e "find -l; quit" https://releases.wikimedia.org/mediawiki/

使用基本工具解析的示例:

lftp -e "find -l; quit" https://releases.wikimedia.org/mediawiki/ |
    awk '{print $3"-"$4, $5}' |
    sort |
    tail -n1 |
    cut -d ' ' -f2

从远程网站生成最新文件。

相关内容