将 html、pdf 或 .doc 格式转换为 google doc,而不会破坏格式

将 html、pdf 或 .doc 格式转换为 google doc,而不会破坏格式

我正在构建一些需要在 google docs 上在线发布的文档。我首先使用 Ruby on Rails 构建静态 html 文件。这些文件看起来不错。

然后我使用将它们转换为 pdf wkhtmltopdf。这些看起来也不错。

然后,我使用将它们转换为 .doc 文件https://pdf2doc.com/。这些文件看起来大多不错。

当我想以可编辑格式将它们保存在 Google 文档中时,问题就出现了。如果我导入 .pdf 或 .doc,并选择“转换为 Google 文档”,格式就会完全被破坏。就像完全乱七八糟一样:图像彼此杂乱无章等等。

我尝试了一个名为“保存到 Google Drive”的 chrome 扩展,它可以在 html 版本上调用,但看起来也很糟糕。

我还没有尝试过的一种方法是将用于构建文档的所有数据(大约有 10 个文档需要构建,所有文档都具有相同的格式但数据不同)输出到 Google 电子表格中,然后进行某种邮件合并以生成文档。但感觉一定有一种方法可以用 html、pdf 或 .doc 格式制作 Google 文档或 Google 幻灯片,而不会弄乱格式。

我想到的另外一件事是尝试仅使用表格构建原始 html 文件,看看它们是否能更好地完成翻译过程。但同样,这很麻烦。

有人有什么建议吗?

编辑- 我突然想到,也许我需要在 html 中设置特定的文档类型或一些元标记?这可能吗?

答案1

目前还不清楚到底发生了什么。请记住,Google Docs 并不支持所有可以用“HTML”完成的内容,而且 Google Drive 也有限制。来自您可以在 Google Drive 中存储的文件

文件大小

以下是您可以在 Google Drive 中存储的最大文件大小:

文件

最多 102 万个字符。
如果将文本文档转换为 Google Docs 格式,则其大小最多可达 50 MB。

尝试仅使用不带属性的简单 HTML 标签创建文档。省略使用diviframevideoaudio、、、、和标签。可能还有其他标签需要省略。检查所有标签是否正确关闭forminputselecttextareaimgspan

您可以使用表格(table、、、、和)来处理布局thead,但要确保没有表格超出您在 Google Docs 中使用的页面大小。不要忘记 Google Docs 有默认页面设置。tbodytrthtd

一旦您确认基本文档结构已正确转换,请使用内联 CSS(样式属性)添加样式,您可以使用span标签并添加img标签。

确保图片托管在网络上、可公开获取,且每张图片都相对较小(小于 1 MB),并且 HTML 和图片大小小于 50 MB。如果您需要使用较大的图片,可以尝试稍后使用 Google 文档编辑器将它们直接添加到相应的文档中。也可以使用 Google Apps Script 和/或 Google Docs API 来执行此操作。

相关内容