无法在下载的网页中 grep 价格

Question 1

许多页面会单独从主页（从单独的“文件”）下载内容，因此您使用来下载的文件中没有任何内容可 grep。Firefoxwget会运行 javascript，从而允许它下载内容。您可以按 (Ctrl+Shift+C) 查看 javascript 控制台。单击“网络”，然后重新加载页面以查看它正在建立哪些连接。其中一个连接是json名为 price-offer 的“文件”。

如果您能够确定内容的位置，就有可能获取数据。否则，您必须执行 javascript，就像 Firefox 一样。但是，这并不像提供 URL 那样简单。您还必须将数据发送到服务器才能获取所需的信息。（APIcmak.fr 描述。

我发现我可以用 Firefox 打开网页，因为它有一个“另存为”.html 选项。然后可以从保存的文件中查找价格。

这是因为浏览器将额外的信息（来自json）添加到页面前保存它。要跳过手动点击 GUI，您可以使用 Chromium 下载页面。（也可以使用 Firefox，但看起来更复杂 -MDN 无头模式。

chromium-browser --headless --disable-gpu --dump-dom "https://example.com/" > example.html

那么grep价格：

sed -i.bak -Ee 's@,@,\n@g' example.html 
grep -wEe '"price"\:[0-9]+\.[0-9]+' example.html

Answer

许多页面会单独从主页（从单独的“文件”）下载内容，因此您使用来下载的文件中没有任何内容可 grep。Firefoxwget会运行 javascript，从而允许它下载内容。您可以按 (Ctrl+Shift+C) 查看 javascript 控制台。单击“网络”，然后重新加载页面以查看它正在建立哪些连接。其中一个连接是json名为 price-offer 的“文件”。