我如何从 Google Docs 中捕获文档中的所有文本并将其转换为文本文件,最好采用可以在脚本中使用的方法?可以吗wget
?例如:
wget https://docs.google.com/document/d/documentcode > googledoc.txt
如果可以的话,我可以使用缩短的 URL 吗?
答案1
无需通过管道传输到其他程序来转换文件。您可以使用 URL 地址中的现有参数从 Google Docs 下载任何受支持的格式。
https://docs.google.com/document/d/FILE_ID/export?format=FORMAT
在哪里:
FILE_ID
是目标文件的字符串ID;FORMAT
是选择的文件格式,即txt
然后,使用或网络浏览器即可直接将 Google Docs 中的文档下载为文本文件wget
。两种方法都会按预期将文档下载为文本文件。
我已经尝试过并且输出看起来像这样:
$ wget https://docs.google.com/document/d/FILE_ID/export?format=txt
--####-##-## ##:##:##-- https://docs.google.com/document/d/FILE_ID/export?format=txt
Resolving docs.google.com (docs.google.com)...
Connecting to docs.google.com (docs.google.com)... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘export?format=txt’
[ <=> ] 649 --.-K/s in 0s
####-##-## ##:##:## (##.# MB/s) - ‘export?format=txt’ saved [649]
其他产品(例如 Google Sheets、Google Presentation 甚至 Google Drive)的 URL 地址会略有不同。
就文档而言,我发现的唯一相关指南是这篇博文发表于 2014 年左右。 有Google Drive 开发者指南的这一页但其实没什么用。就是这样。
答案2
将 Google Doc 下载为 Word 文档,文件扩展名为 .docx。确保您已安装 docxtxt 包。然后运行 docx2txt 命令,后跟文件名称。例如...
docx2txt report.docx