如何将网页内容下载到与网页完全相同的文本文件中?

如何将网页内容下载到与网页完全相同的文本文件中?

我正在尝试从网页中提取一些信息。想象一下,您有一个名字(俄罗斯西伯利亚中北部),并且想要从网页中提取包含该名称的整行。为了解决这个问题,我使用 lynx 命令 ( ) 将网页 ( https://geofon.gfz-potsdam.de/eqinfo/list.php) 下载到文本文件中lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt,并尝试 grep 包含名称“俄罗斯西伯利亚中北部”的行。下面一行显示了网页中的信息,所有信息都是连续的:

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A       Northcentral Siberia, Russia

但是当我将网页下载到文本文件中时,上面的行分成两行,如下所示:

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A   Northcentral 
Siberia, Russia

在这种情况下,如果我尝试使用其全名(俄罗斯西伯利亚北部)和 grep 提取该行,它将失败。我该如何处理呢?

答案1

这是因为当您使用该-dump选项时lynx,它假定您的“屏幕”宽度为 80 列,并且网页的表格格式等会导致换行。

添加一个-width参数,它应该可以工作 -

lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt

相关内容