如何快速从网页(源代码)中“提取”特定信息并将其格式化为 XML?

如何快速从网页(源代码)中“提取”特定信息并将其格式化为 XML?

要点:我工作的小公司通过 Google Merchant 宣传其产品。我们根据 Google 的要求将产品上传到 XML 文件中。

问题:手动将数千种产品格式化为 XML 是一项艰巨的任务。我想要的是一种快速的方法,将每个产品页面上的相关信息转换为格式化的 XML。我正在寻找一种 (半) 自动的方法,从 bigHTMLSourceCode --> formattedXML。

如果我说得不清楚,想象一下想要将亚马逊产品页面格式化为 XML。您希望以某种方式排列成本、描述、重量等,并使用适当的 XML 标签等,但对数千种产品这样做是行不通的。

我在 Google 上进行了广泛的搜索,但没有找到可以帮助解决此问题的程序。

答案1

你会发现许多使用 Python 模块的成功案例美丽汤,并且它被广泛推荐用于网页抓取,我会将其归类为(如果您建议使用正则表达式的解决方案,您很快就会受到 SU 和 SO 用户的谴责 :-) )。这就是我用来抓取您的示例 amazon.com 的方法,我也在其他情况下使用过它。

如果您有一些非常基本的 Python 经验,那么您可能可以查看示例并快速找到可行的解决方案。如果您有一些常见的编程习惯,那么您可能只需花费很少的时间就可以完成相同的操作。

(我不喜欢人们说“哦,这真的很容易!”,因为对于不习惯使用该工具的人来说,实践需要很长时间,但我相信 Beautiful Soup 和 Python 是一个简单而强大的解决方案。如果你找到了更适合你的解决方案:太好了 :-))。


附录:您拥有哪种系统,其中所有页面都是静态 HTML?数据不是存储在某个数据库中吗?我想不是因为您的问题。这可能会带来问题(对于任何如果产品页面上的 HTML 不一致,则可以使用自动解决方案。

答案2

如果你的 HTML 是 XHTML,你可能可以使用XSLT

有工具可以将 HTML 转换为 XML

主要的替代方案是使用脚本语言具有以下模块HTML 解析或者網絡抓取和模块编写 XML。但这意味着要编写程序/脚本。

相关内容