如何使用 Ubuntu 终端进行网页抓取？

2024-6-10 • tag-icon

我想知道如何使用 Ubuntu 终端进行网页抓取。我读过一些关于使用 python 和 beatifulsoup、urllib 的文章，但我想知道是否有任何方法可以在不运行 python 脚本的情况下做到这一点？

假设我正在搜索互联网网站 www.marmara.edu.tr（我的大学网站）并且我想获取一些数据，我该如何通过命令行来做到这一点？

结合curl和文本处理实用程序，如grep、sed awk等。

例如：

curl https://askubuntu.com/questions/941409 &| grep -Po '(?<=<title>).*(?=</title>)'

返回您的问题页面的标题。

相关内容