如何快速从网页（源代码）中“提取”特定信息并将其格式化为 XML？

Question 1

你会发现许多使用 Python 模块的成功案例美丽汤，并且它被广泛推荐用于网页抓取，我会将其归类为（如果您建议使用正则表达式的解决方案，您很快就会受到 SU 和 SO 用户的谴责 :-) ）。这就是我用来抓取您的示例 amazon.com 的方法，我也在其他情况下使用过它。

如果您有一些非常基本的 Python 经验，那么您可能可以查看示例并快速找到可行的解决方案。如果您有一些常见的编程习惯，那么您可能只需花费很少的时间就可以完成相同的操作。

（我不喜欢人们说“哦，这真的很容易！”，因为对于不习惯使用该工具的人来说，实践需要很长时间，但我相信 Beautiful Soup 和 Python 是一个简单而强大的解决方案。如果你找到了更适合你的解决方案：太好了 :-)）。

附录：您拥有哪种系统，其中所有页面都是静态 HTML？数据不是存储在某个数据库中吗？我想不是因为您的问题。这可能会带来问题（对于任何如果产品页面上的 HTML 不一致，则可以使用自动解决方案。

Answer

你会发现许多使用 Python 模块的成功案例美丽汤，并且它被广泛推荐用于网页抓取，我会将其归类为（如果您建议使用正则表达式的解决方案，您很快就会受到 SU 和 SO 用户的谴责 :-) ）。这就是我用来抓取您的示例 amazon.com 的方法，我也在其他情况下使用过它。

如果您有一些非常基本的 Python 经验，那么您可能可以查看示例并快速找到可行的解决方案。如果您有一些常见的编程习惯，那么您可能只需花费很少的时间就可以完成相同的操作。

（我不喜欢人们说“哦，这真的很容易！”，因为对于不习惯使用该工具的人来说，实践需要很长时间，但我相信 Beautiful Soup 和 Python 是一个简单而强大的解决方案。如果你找到了更适合你的解决方案：太好了 :-)）。

附录：您拥有哪种系统，其中所有页面都是静态 HTML？数据不是存储在某个数据库中吗？我想不是因为您的问题。这可能会带来问题（对于任何如果产品页面上的 HTML 不一致，则可以使用自动解决方案。

Question 2

如果你的 HTML 是 XHTML，你可能可以使用XSLT？

主要的替代方案是使用脚本语言具有以下模块HTML 解析或者網絡抓取和模块编写 XML。但这意味着要编写程序/脚本。

Answer

如果你的 HTML 是 XHTML，你可能可以使用XSLT？

主要的替代方案是使用脚本语言具有以下模块HTML 解析或者網絡抓取和模块编写 XML。但这意味着要编写程序/脚本。

相关内容