如何使用 Ubuntu 终端进行网页抓取?

如何使用 Ubuntu 终端进行网页抓取?

我想知道如何使用 Ubuntu 终端进行网页抓取。我读过一些关于使用 python 和 beatifulsoup、urllib 的文章,但我想知道是否有任何方法可以在不运行 python 脚本的情况下做到这一点?

假设我正在搜索互联网网站 www.marmara.edu.tr(我的大学网站)并且我想获取一些数据,我该如何通过命令行来做到这一点?

答案1

结合curl和文本处理实用程序,如grepsed awk等。

例如:

curl https://askubuntu.com/questions/941409 &| grep -Po '(?<=<title>).*(?=</title>)'

返回您的问题页面的标题。

相关内容