有没有办法将文件与下载它的网站 URL 关联起来?

有没有办法将文件与下载它的网站 URL 关联起来?

我正在使用 Ubuntu,并尝试找到一种方法将下载文件的网站的 URL 与该文件关联起来。根据我目前的研究,可以使用扩展属性存储 URL,但我的问题是如何知道/拦截下载文件的网站的 URL。

我还发现了以下链接 -http://www.freedesktop.org/wiki/CommonExtendedAttributes/ - 但我不明白这是否仍在开发中或者是否可以下载和安装。

答案1

如果您使用代理服务器(例如)squid,数据将在访问日志中可用。访问日志最终会被轮换和删除。只要访问日志可用,并且用于保存它的文件名与 URL 匹配,数据就可以轻松与下载的文件匹配。如果文件被缓存,缓存标头将包含文件的来源。

html文件可能包含元数据,可以指示页面从哪个主机下载。

如果下载程序在下载时写入扩展属性,那就简单多了。我不知道有哪个程序能做到这一点。

此类工具wget可能会将文件存储在使用 URL 中的域名命名的目录结构中。这可用于填充扩展属性。

收集这些数据的用例是什么?

相关内容