如何通过 unoconv 获取 ppt 文件中注释的文本?

如何通过 unoconv 获取 ppt 文件中注释的文本?

我希望将 PPT 中各个幻灯片的注释文本转换为在我的 Linux 机器(Ubuntu 12.04)上易于访问的格式。

我的目标是将 PPT 幻灯片转换为带有元数据的图像文件,并以注释为元数据。

我已经使用 unoconv 和 convert 命令将 PPT 转换为图像,

最初我使用以下命令将 PPT 转换为 PDF,

sudo unoconv -f pdf -o output.pdf input.pptx

其次,使用以下转换命令将这些 pdf 文件转换为 png 文件,

convert output.pdf -density 400 -quality 100 -sharpen 0x1.0 output_%01d.png

现在我需要记下来,

我尝试使用以下 unoconv 命令将 PPT 转换为 xhtml 以获取注释,

sudo unoconv -f xhtml -o output.xhtml input.pptx

但是在上面的那个中,可以读取注释,但无法通过代码来解析它,它不是正确的结构。

有人能帮我把笔记拿出来吗?

提前致谢。

相关内容