从许多 MS Word 文件中提取结构化数据

从许多 MS Word 文件中提取结构化数据

我有大约 160 个包含结构化数据的 MS Word 文件。所有文件中的数据格式相同,并且以表格格式保存。

我想将数据提取到数据库、XML 或仅聚合表中,而无需单独打开每个文件。

是否有一个工具或方法可以用来提取这些数据?

答案1

好吧,你可以用 python(或任何其他语言,但我更喜欢 python :D)编写代码来从文件中提取数据并将其放入数据库中。你可以使用 Python UNO 模块来使用 open office API 并提取数据。以下是一些 python 示例代码,可能会对你有所帮助http://wiki.services.openoffice.org/wiki/PyUNO_samples。如果数据结构良好,整体代码应该很容易编写。

相关内容