如何从网页中捕获不同结构的表格

如何从网页中捕获不同结构的表格

我有数千个网页(需要使用用户名和密码登录),例如https://XXX.incometax.XXX/Preview/ViewDetail?TIN_INFO_NO=11935#每个 url 只有最后四位数字(本例中为 11935)会发生变化。每个 url 都会在不同类型的表格中检索纳税人的税务信息。表格根据系统中为每个纳税人输入的信息提供,例如,某些纳税人信息表显示使用 NID 创建电子纳税人识别号 (eTIN) 的人的国民身份证 (NID) 号码,而某些纳税人信息表显示护照号码(对于使用护照号码创建 eTIN 的人)。所以,最重要的是,不同纳税人的信息表是不同的。现在我需要一种自动化方法来提取这些表格,以便创建所有新发现的列并将相应的列数据放在相应的列下。

例如,假设一个纳税人可以使用 NID 或护照号码创建 eTIN,但不能同时使用两者。假设在第一遍中自动化系统找到了 NID 信息,在第二遍中找到了护照信息,那么它将创建名为护照的新列并将相应的信息放置在其下方,如果在第三遍中找到了 NID 信息,那么它将把该信息放置在之前(第一遍)创建的 NID 列下。最后,自动化系统将生成一个 csv 文件。

注意:我从该网站提取信息没有任何法律限制。我想要一个非程序化的解决方案。

相关内容