如何导出 Google 快讯引用?

如何导出 Google 快讯引用?

我的电子邮件中有几个月的 Google 快讯,我想在网络上的某个地方(例如在 MediaWiki wiki 上)分享它们。有没有简单的方法可以导出它们?

警报包含此类 HTML(从 Thunderbird 看到):

<div style="color:#fff;font-size:9px;letter-spacing:0.8px"> <div style="padding:3px 0px 4px 4px;background:rgb(255,255,255);background-color:rgba(0,0,0,0.5);width:96px">La Provincia di Biella</div> </div> <!--[if gte mso 9]></div><![endif]--> </td> </tr> </table> </a> <div>  <span style="padding:0px 6px 0px 0px"> <a href="https://www.google.com/url?rct=j&amp;sa=t&amp;url=http://www.laprovinciadibiella.it/web/castelletto-cervo-nei-siti-cluniacensi-9458&amp;ct=ga&amp;cd=CAEYACoTMzc2NjcxMzA4NDYzNjc4NjUwMjIZZThjOGE1NjBlZjA5ZDRkMDppdDppdDpJVA&amp;usg=AFQjCNEW4QKACEvE_AbGrMGOBJ2y4dFSIw" style="color:#427fed;display:inline;text-decoration:none;font-size:16px;line-height:20px">Castelletto Cervo nei siti cluniacensi</a> </span>  <div> <div style="padding:2px 0px 8px 0px"> <div style="color:#737373;font-size:12px"> <a style="text-decoration:none;color:#737373">La Provincia di Biella</a> </div>

答案1

为我工作:

  1. 从 Thunderbird 目录中的电子邮件下载警报;
  2. 安装 ImportExportTools 插件并将整个目录导出为 HTML;
  3. 转到导出目录并运行:find * -print0 | xargs -0 -I § bash -c 'NAME="§"; DATE="{{#time:j F Y| ${NAME:0:8} }}"; grep --text -Eo "ru=([^&]+)&amp;" "§" | sed "s,ru=,;$DATE:,g" | sed "s,&amp;,,g" ; ' | sort -ru

我使用;$DATE:每个 URL 作为前缀,因为这是有意义的维基文本,解析器函数允许轻松转换导出文件使用的“AAAAMDD”格式。你可以用任何东西代替。

更智能的版本可以将 URL 发送到 Zotero 或 Citoid 以获取正确的引用,或者可以解析原始 HTML 以提取更多信息。 2014 年 1 月 18 日之前的警报的 HTML 格式似乎有所不同。

使用 GNU findutils 4.5.12、bash 4.3.42 进行测试。

TODO:下载“查看更多文章”链接并解析它们。在繁忙的日子里,电子邮件仅包含随机选择的“热门”新闻。

相关内容