我的电子邮件中有几个月的 Google 快讯,我想在网络上的某个地方(例如在 MediaWiki wiki 上)分享它们。有没有简单的方法可以导出它们?
警报包含此类 HTML(从 Thunderbird 看到):
<div style="color:#fff;font-size:9px;letter-spacing:0.8px"> <div style="padding:3px 0px 4px 4px;background:rgb(255,255,255);background-color:rgba(0,0,0,0.5);width:96px">La Provincia di Biella</div> </div> <!--[if gte mso 9]></div><![endif]--> </td> </tr> </table> </a> <div> <span style="padding:0px 6px 0px 0px"> <a href="https://www.google.com/url?rct=j&sa=t&url=http://www.laprovinciadibiella.it/web/castelletto-cervo-nei-siti-cluniacensi-9458&ct=ga&cd=CAEYACoTMzc2NjcxMzA4NDYzNjc4NjUwMjIZZThjOGE1NjBlZjA5ZDRkMDppdDppdDpJVA&usg=AFQjCNEW4QKACEvE_AbGrMGOBJ2y4dFSIw" style="color:#427fed;display:inline;text-decoration:none;font-size:16px;line-height:20px">Castelletto Cervo nei siti cluniacensi</a> </span> <div> <div style="padding:2px 0px 8px 0px"> <div style="color:#737373;font-size:12px"> <a style="text-decoration:none;color:#737373">La Provincia di Biella</a> </div>
答案1
这为我工作:
- 从 Thunderbird 目录中的电子邮件下载警报;
- 安装 ImportExportTools 插件并将整个目录导出为 HTML;
- 转到导出目录并运行:
find * -print0 | xargs -0 -I § bash -c 'NAME="§"; DATE="{{#time:j F Y| ${NAME:0:8} }}"; grep --text -Eo "ru=([^&]+)&" "§" | sed "s,ru=,;$DATE:,g" | sed "s,&,,g" ; ' | sort -ru
我使用;$DATE:
每个 URL 作为前缀,因为这是有意义的维基文本,解析器函数允许轻松转换导出文件使用的“AAAAMDD”格式。你可以用任何东西代替。
更智能的版本可以将 URL 发送到 Zotero 或 Citoid 以获取正确的引用,或者可以解析原始 HTML 以提取更多信息。 2014 年 1 月 18 日之前的警报的 HTML 格式似乎有所不同。
使用 GNU findutils 4.5.12、bash 4.3.42 进行测试。
TODO:下载“查看更多文章”链接并解析它们。在繁忙的日子里,电子邮件仅包含随机选择的“热门”新闻。