使用并行化的 wget/curl 命令进行抓取

Question

为了访问某些隐藏对象而枚举顺序 ID 的过程称为不安全的直接对象引用（IDOR）。如果这些对象不打算公开，则在某些司法管辖区内访问它们可能被视为非法（IANAL）。

主要的社交平台都很清楚 IDOR，并采取了适当的措施 - 随机 ID、适当的身份验证检查等。他们也不喜欢抓取工具，并应用请求速率限制。我预计，以 100 rps 的请求速率进行抓取的尝试将在几分钟内以 429 结束。我的印象是，抓取工具花费了大部分精力来寻找和管理代理以绕过速率限制。绕过限制肯定会违反 ToS，在某些司法管辖区也可能被视为非法（IANAL）。

从技术角度来看，这个想法严重低估了所需的资源量。有数十亿个网站，Google 索引包含数千亿个文档。即使我们将任务简化为现有的 YouTube 视频，也有 200 亿个。curl对 YouTube 视频获取标题将返回大约 700-800 KB，相当于所有视频的 14 PBytes。这将需要 14 GBits/秒，持续 3 个月。time curl显示大约 0.1-0.2s 的用户+系统时间，这意味着我们可以每秒每个 CPU 核心执行大约 5 个请求（没有任何调度和后处理开销）。要在 3 个月内处理 200 亿个请求，需要 400 个 CPU 核心。要存储带有哈希和视频标题的 200 亿个条目（例如 100 字节），我们需要大约 2 TB 的存储空间，没有任何索引。简单的grep2 TB 文件从 SSD 中读取大约需要 10 分钟，如果在内存中则需要 2 分钟。为了获得合理的搜索响应时间（<5 秒），我们需要将搜索分散到至少 25 个实例上，总共 2 TB RAM，每个实例需要 80 GB RAM。为了获得总共 400 个 CPU 核心，每个实例至少需要 16 个 vCPU。最便宜的实例符合要求，r6g.4xlarge按需每月费用为 588 美元。25 个实例的总成本为每月 14700 美元。

Answer 1

为了访问某些隐藏对象而枚举顺序 ID 的过程称为不安全的直接对象引用（IDOR）。如果这些对象不打算公开，则在某些司法管辖区内访问它们可能被视为非法（IANAL）。

主要的社交平台都很清楚 IDOR，并采取了适当的措施 - 随机 ID、适当的身份验证检查等。他们也不喜欢抓取工具，并应用请求速率限制。我预计，以 100 rps 的请求速率进行抓取的尝试将在几分钟内以 429 结束。我的印象是，抓取工具花费了大部分精力来寻找和管理代理以绕过速率限制。绕过限制肯定会违反 ToS，在某些司法管辖区也可能被视为非法（IANAL）。

从技术角度来看，这个想法严重低估了所需的资源量。有数十亿个网站，Google 索引包含数千亿个文档。即使我们将任务简化为现有的 YouTube 视频，也有 200 亿个。curl对 YouTube 视频获取标题将返回大约 700-800 KB，相当于所有视频的 14 PBytes。这将需要 14 GBits/秒，持续 3 个月。time curl显示大约 0.1-0.2s 的用户+系统时间，这意味着我们可以每秒每个 CPU 核心执行大约 5 个请求（没有任何调度和后处理开销）。要在 3 个月内处理 200 亿个请求，需要 400 个 CPU 核心。要存储带有哈希和视频标题的 200 亿个条目（例如 100 字节），我们需要大约 2 TB 的存储空间，没有任何索引。简单的grep2 TB 文件从 SSD 中读取大约需要 10 分钟，如果在内存中则需要 2 分钟。为了获得合理的搜索响应时间（<5 秒），我们需要将搜索分散到至少 25 个实例上，总共 2 TB RAM，每个实例需要 80 GB RAM。为了获得总共 400 个 CPU 核心，每个实例至少需要 16 个 vCPU。最便宜的实例符合要求，r6g.4xlarge按需每月费用为 588 美元。25 个实例的总成本为每月 14700 美元。

使用并行化的 wget/curl 命令进行抓取

答案1

相关内容