我想知道如何使用 Ubuntu 终端进行网页抓取。我读过一些关于使用 python 和 beatifulsoup、urllib 的文章,但我想知道是否有任何方法可以在不运行 python 脚本的情况下做到这一点?
假设我正在搜索互联网网站 www.marmara.edu.tr(我的大学网站)并且我想获取一些数据,我该如何通过命令行来做到这一点?
答案1
结合curl
和文本处理实用程序,如grep
、sed
awk
等。
例如:
curl https://askubuntu.com/questions/941409 &| grep -Po '(?<=<title>).*(?=</title>)'
返回您的问题页面的标题。