自动保存访问过的每个网页的纯文本内容?

自动保存访问过的每个网页的纯文本内容?

我想自动将我访问的每个网页的文本保存到它自己相应的文本文档中,而不是html文档中。我不想保存所有样式和额外重复的 html 表等代码和其他不需要的浪费字节。我希望能够仅保存有价值的信息,仅保存访问的每个网页的文本信息。

所以我想网页文本文件可以像这样保存。

Website_Title.txt

并且仅在文档内部包含相应网页的文本。有点像我下面的 xclip 脚本,但会自动保存整个页面。从相应网页的<title></title>标签中收集文件名标题。

这可以做到吗?可能在应用程序“xclip”的帮助下?我想可能不是靠它自己。由于“xclip”不会自动执行操作,我不认为......


目前,我正在使用“xclip”来保存按键盘快捷键后选择的文本。

像这样,例如...如果您想保存下面选定的文本:

在此输入图像描述

就我而言,我会按:Ctrl + Shift + X

然后会保存一个如下所示的文件:

在此输入图像描述

该文件的内部如下所示:

在此输入图像描述



我希望能够做同样的事情,但不是选择并保存我想要的文本,而是保存整个页面(就像您使用 Ctrl + A 一样),然后保存内容,并附加每个页面自动带有网站标题的文件名。

预先非常感谢您抽出宝贵的时间。



哦,如果有人想使用我的xclip-save-selection.sh脚本,这里是:

#!/bin/sh
#
#           _  _                                               _           _    _                    _    
# __ __ __ | |(_) _ __  ___  ___ __ _ __ __ ___  ___  ___ ___ | | ___  __ | |_ (_) ___  _ _      ___| |_  
# \ \ // _|| || || '_ \|___|(_-</ _` |\ V // -_)|___|(_-</ -_)| |/ -_)/ _||  _|| |/ _ \| ' \  _ (_-<| ' \ 
# /_\_\\__||_||_|| .__/     /__/\__,_| \_/ \___|     /__/\___||_|\___|\__| \__||_|\___/|_||_|(_)/__/|_||_|
#                |_|                                                                                      
#
# Save Selected Text Script
# XFCE4: Applications > Settings > Keyboard
# Attach this script to a custom keyboard shortcut to be able to save selected text from anywhere

xclip -o > "/home/anonymous/.logs/clips/$(date +'%Y-%m-%d_%H-%M-%S')_$(xclip -o | cat -s | perl -pe 's/\r?\n/_/' | perl -pe 's/\ /_/g' | sed 's/    /_/g' | sed 's/__/_/g' | sed -e 's/^M//' | tr -s -c [:alnum:][:blank:] _ | cut -c1-50).txt"
bash -c 'notify-send "Save Selected Text - Success!"'

答案1

我会这样做:

  • 安装w3m
  • w3m -dump 站点 url > 输出.txt

然后,您还可以创建一个脚本来查看历史记录、抓取 URL 并从中进行文本转换。另外,使其查看文本文件名以作为已转换站点的参考并忽略对它们的处理,以免创建重复项。

相关内容