如何将 Google Docs 中的文档转换为文本文件

如何将 Google Docs 中的文档转换为文本文件

我如何从 Google Docs 中捕获文档中的所有文本并将其转换为文本文件,最好采用可以在脚本中使用的方法?可以吗wget?例如:

wget https://docs.google.com/document/d/documentcode > googledoc.txt

如果可以的话,我可以使用缩短的 URL 吗?

答案1

无需通过管道传输到其他程序来转换文件。您可以使用 URL 地址中的现有参数从 Google Docs 下载任何受支持的格式。

https://docs.google.com/document/d/FILE_ID/export?format=FORMAT

在哪里:

  • FILE_ID是目标文件的字符串ID;
  • FORMAT是选择的文件格式,即txt

然后,使用或网络浏览器即可直接将 Google Docs 中的文档下载为文本文件wget。两种方法都会按预期将文档下载为文本文件。

我已经尝试过并且输出看起来像这样:

$ wget https://docs.google.com/document/d/FILE_ID/export?format=txt
--####-##-## ##:##:##--  https://docs.google.com/document/d/FILE_ID/export?format=txt
Resolving docs.google.com (docs.google.com)...
Connecting to docs.google.com (docs.google.com)... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘export?format=txt’

    [ <=>                                    ] 649         --.-K/s   in 0s      

####-##-## ##:##:## (##.# MB/s) - ‘export?format=txt’ saved [649]

其他产品(例如 Google Sheets、Google Presentation 甚至 Google Drive)的 URL 地址会略有不同。

就文档而言,我发现的唯一相关指南是这篇博文发表于 2014 年左右。 有Google Drive 开发者指南的这一页但其实没什么用。就是这样。

答案2

将 Google Doc 下载为 Word 文档,文件扩展名为 .docx。确保您已安装 docxtxt 包。然后运行 ​​docx2txt 命令,后跟文件名称。例如...

docx2txt report.docx

相关内容