要点:我工作的小公司通过 Google Merchant 宣传其产品。我们根据 Google 的要求将产品上传到 XML 文件中。
问题:手动将数千种产品格式化为 XML 是一项艰巨的任务。我想要的是一种快速的方法,将每个产品页面上的相关信息转换为格式化的 XML。我正在寻找一种 (半) 自动的方法,从 bigHTMLSourceCode --> formattedXML。
如果我说得不清楚,想象一下想要将亚马逊产品页面格式化为 XML。您希望以某种方式排列成本、描述、重量等,并使用适当的 XML 标签等,但对数千种产品这样做是行不通的。
我在 Google 上进行了广泛的搜索,但没有找到可以帮助解决此问题的程序。
答案1
你会发现许多使用 Python 模块的成功案例美丽汤,并且它被广泛推荐用于网页抓取,我会将其归类为(如果您建议使用正则表达式的解决方案,您很快就会受到 SU 和 SO 用户的谴责 :-) )。这就是我用来抓取您的示例 amazon.com 的方法,我也在其他情况下使用过它。
如果您有一些非常基本的 Python 经验,那么您可能可以查看示例并快速找到可行的解决方案。如果您有一些常见的编程习惯,那么您可能只需花费很少的时间就可以完成相同的操作。
(我不喜欢人们说“哦,这真的很容易!”,因为对于不习惯使用该工具的人来说,实践需要很长时间,但我相信 Beautiful Soup 和 Python 是一个简单而强大的解决方案。如果你找到了更适合你的解决方案:太好了 :-))。
附录:您拥有哪种系统,其中所有页面都是静态 HTML?数据不是存储在某个数据库中吗?我想不是因为您的问题。这可能会带来问题(对于任何如果产品页面上的 HTML 不一致,则可以使用自动解决方案。