如何获取整个文本数据集?

如何获取整个文本数据集?

我有 Ubuntu 18.4。我最近发现了 wget,并尝试将它放在我的远程数据文件上,几个月来我一直试图将这些数据放到我的电脑上,但没有成功。

我运行了 wget,它得到了“首页”,该首页设置了显示格式,用于显示我多年来在那个远程新闻网站上写的文本。但是,它没有进一步发展。我查看了该网站用于显示所有这些文本数据的代码,它是 html 和 java 的组合。我不是程序员,对他们所有非常长的代码都不太了解。这个网站对我获取所有这些旧评论和文本没有一点帮助。

我想要获取我的文本数据并能够将其重新格式化以适合我想要写的书。

有没有办法让 wget 抓取我的所有数据?网站有时会出现通信故障,并断开连接,并显示错误消息“error-connection-retry”,可能会重新连接并恢复正常,也可能会重新连接但开始混合显示不同年份的数据,或者可能只是冻结而不继续,我不得不从头开始。

我已经将网站代码复制到 WordPad 文档中,但它长达好几页。如果有帮助的话,我可以复制几页显示的文本数据,以显示网站已设置显示的内容,如果 wget 确实可以处理,则可能需要或不需要处理。

谢谢,帕特

答案1

一个选项是使用 lynx,如对类似问题的回答

您可能需要安装 lynx,并且必须启用宇宙存储库

sudo add-apt-repository universe
sudo apt update
sudo apt install lynx

然后使用 dump 选项运行它,如下所示:

lynx -dump https://example.com

要将此文本保存到文件,您可以通过管道将输出传输到tee如下位置:

lynx -dump https://example.com | tee filename.txt

这应该会转储页面的整个文本。尽管可能有一些不相关的文本,但您想要的文本应该包含在内,而无需所有花哨的代码。


另一个选择是:

  • 访问浏览器中的网页
  • 双击页面文本部分的任意单词
  • CTRL+a选择所有文本
  • CTRL+c复制文本
  • 然后将文本粘贴到文本编辑器或 Word 文档中或任何地方

使此选项更加简单的一种方法是查看 Google webcache 的“纯文本”版本页面。

从那里,您可以使用上面描述的复制和粘贴方法。

要搜索页面的 Google webcache 版本(如果存在),请使用以下 URL 语法:

http://webcache.googleusercontent.com/search?q=cache:URL&strip=1&vwsrc=0

并将“URL”替换为页面的实际URL。

例如,要查看纯文本版本的示例.com页面,您可以使用以下 URL:

http://webcache.googleusercontent.com/search?q=cache:https://example.com&strip=1&vwsrc=0

相关内容