如何使用 Excel 的 Power Query From Web 选项从各个网站提取新闻标题并实时保存数据?

如何使用 Excel 的 Power Query From Web 选项从各个网站提取新闻标题并实时保存数据?

我熟悉此工具如何从 Wikipedia 等网站的表格中提取数据,但我遇到了一些问题。如果可能的话,使用 Excel 或任何其他软件,我需要执行以下操作:

电子表格结果示例

这是通过简单的复制和粘贴来匹配目标格式实现的,但这并不能保持动态。当我使用查询编辑器时,我立即注意到它不会按我希望的方式工作,除非表格是实际的 HTML 表格。我可以向下钻取直到找到文本,但我没有可行的方法来了解我要去哪里。

通常结果

没有可用的选项来选择包含我想要放在表格中的数据的区域,除非它符合上述格式。此外,一些通常允许这样做的页面存在 IE 兼容性问题,我不知道如何规避。如果我可以使用 Chrome 或 Edge,那将会很有帮助。

答案1

此工具在大多数现代商业网站上效果不佳,因为它们的页面非常复杂且动态。例如,它们会尝试检测您的位置和浏览器并为您提供不同的内容。大多数其他工具在这些页面上也表现不佳。

通过提取 RSS 源,而不是尝试解析整个主页,您将获得更好的结果。RSS 是新闻网站发布故事/项目的稳定、机器可读的标准。例如,对于路透社,他们有许多可用的源:

https://www.reuters.com/tools/rss

使用所需的 URL,Power Query 将快速为您提供嵌套文档。单击桌子要深入研究的单元格,例如内容然后物品

相关内容