我想通过使用API 和curl 来抓取论坛。
应用程序编程接口:
这是初始链接:
期望的结果:
我需要能够一直做到 4,240
正如您所看到的,唯一改变的整数是点后面的。
答案1
Curl,如果您想用它来访问 URL,它支持带有范围的 URL:
curl ... 'https://bitcointalk.org/index.php?topic=840124.[0-4240]'
...
您可能想要使用的其他选项在哪里?
范围语法还允许以除 1 之外的另一个增量步进。例如,要获取每 20 个 URL:
curl ... 'https://bitcointalk.org/index.php?topic=840124.[0-4240:20]'
欲了解更多信息,请参阅curl
手册。
生成 URL 列表分离使用curl
或其他程序处理,请考虑使用大括号扩展(如果您的 shell 支持):
printf '%s\n' 'https://bitcointalk.org/index.php?topic=840124.'{0..4240}
对于bash
其他一些 shell,可以像 中那样使用增量'...URL...'{0..4240..20}
。
然后可以将该列表通过管道传输到例如xargs
可以curl
使用 URL 作为参数来调用您或其他程序的程序。