如何从网页中捕获不同结构的表格

2024-5-31 • tag-icon

我有数千个网页（需要使用用户名和密码登录），例如https://XXX.incometax.XXX/Preview/ViewDetail?TIN_INFO_NO=11935#每个 url 只有最后四位数字（本例中为 11935）会发生变化。每个 url 都会在不同类型的表格中检索纳税人的税务信息。表格根据系统中为每个纳税人输入的信息提供，例如，某些纳税人信息表显示使用 NID 创建电子纳税人识别号 (eTIN) 的人的国民身份证 (NID) 号码，而某些纳税人信息表显示护照号码（对于使用护照号码创建 eTIN 的人）。所以，最重要的是，不同纳税人的信息表是不同的。现在我需要一种自动化方法来提取这些表格，以便创建所有新发现的列并将相应的列数据放在相应的列下。

例如，假设一个纳税人可以使用 NID 或护照号码创建 eTIN，但不能同时使用两者。假设在第一遍中自动化系统找到了 NID 信息，在第二遍中找到了护照信息，那么它将创建名为护照的新列并将相应的信息放置在其下方，如果在第三遍中找到了 NID 信息，那么它将把该信息放置在之前（第一遍）创建的 NID 列下。最后，自动化系统将生成一个 csv 文件。

注意：我从该网站提取信息没有任何法律限制。我想要一个非程序化的解决方案。

相关内容