有什么方法可以验证页面内容(如果它们存在于其中)?例如,如果我打开 google.com,如果其页面内容中有“错误”,那么我就可以知道该页面未正确打开。(我已经知道检查页面状态代码的方法,如 200、400、404 或 500 等),我实际上感兴趣的是获取页面内容并将其与字符串进行比较,然后根据该字符串采取所需的操作
答案1
我不确定如何使用 curl 转储格式化的 Web 文件。如果您只是使用 curl 下载网站,然后在其中进行字符串搜索,则可能会得到错误的结果。所有 html 标签、javascript 代码……都将被搜索。
您可以尝试使用lynx
文本命令行浏览器,并将-dump
选项设置为格式化输出,然后执行grep
以查找字符串匹配。
root@localhost:/t# lynx -dump www.google.com | grep -i "Feeling Lucky"
Google Search I'm Feeling Lucky [12]Advanced search