在 kubuntu 22.04 下,我有一个 pdf 文件,我需要创建一个 ms word doc 97 文件,以便在 Libre Office Writer 和 ms word doc 97 下编辑它。如果我从 Libre Office Writer 打开此文件,则文件将在 Libre Office Draw 应用程序中打开,该应用程序没有将文件另存为 word doc 97 文件的选项。我可以用什么方式将我的文件转换为 ms word doc 97 格式?
附言: 也许不是 ms word doc 97,但是如何转换为现代(不确定现在是什么格式)ms word doc 格式?
PS2: 我尝试命令并出现错误:
pandoc source.pdf -f pdf -t docx -o Agreement.doc
Unknown input format pdf
Pandoc can convert to PDF, but not from PDF.
在帮助中我看到:
pandoc -h
pandoc [OPTIONS] [FILES]
-f FORMAT, -r FORMAT --from=FORMAT, --read=FORMAT
-t FORMAT, -w FORMAT --to=FORMAT, --write=FORMAT
-o FILE --output=FILE
--data-dir=DIRECTORY
-M KEY[:VALUE] --metadata=KEY[:VALUE]
--metadata-file=FILE
-d FILE --defaults=FILE
--file-scope
-s --standalone
--template=FILE
-V KEY[:VALUE] --variable=KEY[:VALUE]
--wrap=auto|none|preserve
--ascii
--toc, --table-of-contents
--toc-depth=NUMBER
-N --number-sections
--number-offset=NUMBERS
--top-level-division=section|chapter|part
--extract-media=PATH
--resource-path=SEARCHPATH
-H FILE --include-in-header=FILE
-B FILE --include-before-body=FILE
-A FILE --include-after-body=FILE
--no-highlight
--highlight-style=STYLE|FILE
--syntax-definition=FILE
--dpi=NUMBER
--eol=crlf|lf|native
--columns=NUMBER
-p --preserve-tabs
--tab-stop=NUMBER
--pdf-engine=PROGRAM
--pdf-engine-opt=STRING
--reference-doc=FILE
--self-contained
--request-header=NAME:VALUE
--abbreviations=FILE
--indented-code-classes=STRING
--default-image-extension=extension
-F PROGRAM --filter=PROGRAM
-L SCRIPTPATH --lua-filter=SCRIPTPATH
--shift-heading-level-by=NUMBER
--base-header-level=NUMBER
--strip-empty-paragraphs
--track-changes=accept|reject|all
--strip-comments
--reference-links
--reference-location=block|section|document
--atx-headers
--listings
-i --incremental
--slide-level=NUMBER
--section-divs
--html-q-tags
--email-obfuscation=none|javascript|references
--id-prefix=STRING
-T STRING --title-prefix=STRING
-c URL --css=URL
--epub-subdirectory=DIRNAME
--epub-cover-image=FILE
--epub-metadata=FILE
--epub-embed-font=FILE
--epub-chapter-level=NUMBER
--ipynb-output=all|none|best
--bibliography=FILE
--csl=FILE
--citation-abbreviations=FILE
--natbib
--biblatex
--mathml
--webtex[=URL]
--mathjax[=URL]
--katex[=URL]
--gladtex
--trace
--dump-args
--ignore-args
--verbose
--quiet
--fail-if-warnings
--log=FILE
--bash-completion
--list-input-formats
--list-output-formats
--list-extensions[=FORMAT]
--list-highlight-languages
--list-highlight-styles
-D FORMAT --print-default-template=FORMAT
--print-default-data-file=FILE
--print-highlight-style=STYLE|FILE
-v --version
-h --help
看来我提供了所有有效参数......
更新: 我尝试按照命令操作,但收到警告:
libreoffice --infilter="source.pdf" --convert-to docx Settle.doc
Warning: failed to launch javaldx - java may not function correctly
convert /mnt/_work_sdb8/NSN/Settlement/Settle.doc -> /mnt/_work_sdb8/NSN/Settlement/Settle.docx using filter : MS Word 2007 XML
我得到了空的 Settle.docx 空的 - 4.1 kb 不确定我已在操作系统中配置了哪些选项/缺少哪些包:
lsb_release -d; uname -r; uname -i
Description: Ubuntu 22.04.3 LTS
6.2.0-35-generic
x86_64
答案1
使用分发包:
libreoffice --infilter="writer_pdf_import" --convert-to docx my.pdf
或者
soffice --infilter="writer_pdf_import" --convert-to docx my.pdf
使用 TDF 站点包:
/opt/libreoffice24.2/program/soffice --infilter="writer_pdf_import" --convert-to docx my.pdf
答案2
从 pandoc 网站来看,它似乎能够将 PDF 格式转换为 PDF 格式,但不能从 PDF 格式转换为 PDF 格式。因此,原始操作似乎不可行。一个粗略的解决方案是将 PDF 文件转换为某种文本格式,然后将其捕获到 OpenOffice 中。可能需要进行一些修剪。但是,当然,您已经知道了……