我有大约 160 个包含结构化数据的 MS Word 文件。所有文件中的数据格式相同,并且以表格格式保存。
我想将数据提取到数据库、XML 或仅聚合表中,而无需单独打开每个文件。
是否有一个工具或方法可以用来提取这些数据?
答案1
好吧,你可以用 python(或任何其他语言,但我更喜欢 python :D)编写代码来从文件中提取数据并将其放入数据库中。你可以使用 Python UNO 模块来使用 open office API 并提取数据。以下是一些 python 示例代码,可能会对你有所帮助http://wiki.services.openoffice.org/wiki/PyUNO_samples。如果数据结构良好,整体代码应该很容易编写。