使用 wget 保存带有脚本的网页

Question

答案是：

wget --header 'Content-type: application/json' --header 'Cookie: ASP.NET_SessionId=1bsq4nw4nj30groly5pv5zt3' --post-data='{"local":"PE","type":"dataDepartureXML"}' 'http://m.marine.gov.mo/seawayScheduled/RealTimeSailing.aspx/GetData'

其中“ASP.NET....”位是 cookie，不幸的是它是强制性的。当您检索主页时会发送此 cookie。因此，您必须使用两个命令进行稍微不同的操作：

获取主页并丢弃它（但将 cookie 保留在 cookie.txt 中）：

wget --keep-session-cookies --save-cookies cookie.txt 'http://m.marine.gov.mo/seawayScheduled/RealTimeSailing.aspx?type=dataDepartureXML&local=PE&lang=ENG' -O /dev/null

获取数据并发送 cookie：

wget --load-cookies cookie.txt --header 'Content-type: application/json' --post-data='{"local":"PE","type":"dataDepartureXML"}' 'http://m.marine.gov.mo/seawayScheduled/RealTimeSailing.aspx/GetData' -O data.json

您获得的数据是一个包含两个字符串元素的 JSON 数组，这些字符串元素是原始 HTML。特殊字符（引号、括号……）被转义，因此结果的可读性不强，但使用编辑器进行一些全局更改即可轻松清理。

Answer 1