我想通过删除重复/链接来清理我的书签文件夹。我创建了一个程序,它将导入 2 个包含如下 URL 的文本文件
文件 1:
http://www.google/com
http://anime.stackexchange.com/
https://www.fanfiction.net/guidelines/
https://www.fanfiction.net/anime/Magical-Girl-Lyrical-Nanoha/?&srt=1&g1=2&lan=1&r=103&s=2
文件 2:
http://scifi.stackexchange.com/
http://scifi.stackexchange.com/questions/56142/why-didnt-dumbledore-just-hunt-voldemort-down
http://anime.stackexchange.com/
http://scifi.stackexchange.com/questions/5650/how-can-the-doctor-be-poisoned
该程序将比较这两个列表,并创建一个删除了重复 URL 的主列表。
现在我在 Firefox 中有几个备份书签文件夹,有时我会在关闭标签或重置我的电脑之前将所有标签添加到带有备份日期的新文件夹中。每个文件夹可以有 1000-2000 个书签,有时会有一堆页面不断被添加书签,例如,我在《魔法少女奈叶》维基上有大约 50 页关于不同咒语、角色和术语的内容,我经常回顾这些内容。
我想知道如何导出书签文件夹,以便获得与我在程序中使用的 URL 列表类似的 URL 列表
答案1
我能想到的最好的方法是使用导出功能,它将您的书签导出到 html 文件,然后使用 grep 将 url 提取到文本文件中。
您可以尝试类似...
find * -exec cat {} \; | grep http | grep -shoP 'http.*?[" >]' > output.txt
它将搜索目录中的所有文件并输出到 txt 文件或
cat bookmark.html | grep http | grep -shoP 'http.*?[" >]' > output.txt
这将在特定文件(在本例中为 bookmark.html)中搜索 URL,然后输出到 txt 文件。
但还有许多其他方法可以实现您的目标,这只是一个例子。
答案2
打开“库”窗口(书签 > 管理书签或 Ctrl-Shift-O)
右键单击所需的书签文件夹并在上下文菜单中选择“复制”。
这会将该文件夹中的所有 URL 复制到剪贴板,以便将其粘贴到您想要的位置。