已超出 Google Drive 配额

已超出 Google Drive 配额

我需要将一个数据集(120GB)存储在我的驱动器中,以便稍后在其上训练模型。如果我从我的电脑上传它,那将花费大量时间。所以我想我会直接通过 Colab 下载到 Drive,我从源下载了 20 GB 的 tar 文件,wget直接使用以下命令下载到 Drive:

from google.colab import drive
drive.mount('/content/drive')

import os
os.chdir("/content/drive/MyDrive/EGTEA")

!wget https://www.dropbox.com/s/udynz2u62wpdva6/video_clips.tar?dl=0

到目前为止一切都很好。现在我直接尝试将其解压到驱动器中的同一文件夹中,如下所示:

!tar -xvf "video_clips.tar"

视频片段被解压了,但 2-3 分钟后,它们就不再被上传到驱动器了,代码运行时会弹出一个窗口:

已超出 Google Drive 配额(最近一次是在凌晨 12:29:18)。更多信息

我可以反复重复这个过程,但一开始可以,但 2-3 分钟后就会弹出这个窗口。解压的全部数据不会超过 100GB。

我正在使用我的大学电子邮件 ID,因此有 TB 的可用驱动器空间,并且互联网连接也很好,我已经尝试过很多次,但在某个时候,会弹出这个并且数据不会进入驱动器。

问题是什么?人们如何在 colab 上处理大型数据集。此外,在我获得这些视频片段后,我必须在 colab 上对它们进行预处理,并将最终的预处理数据 (120GB) 存储到驱动器中。现在我不太确定它是否像运行代码一样简单,因为我只停留在第一部分,请给我一些方法来解决这个问题。

答案1

我似乎找到解决办法了。

即使代码停止运行,驱动器文件似乎仍在添加。因此,您可以忽略“已超出配额限制”的警告。

您只需等到活动停止即可。就我而言,当代码运行完毕并出现“已超出配额限制”弹出窗口时,我以为数据已停止上传,但在后台,它会在有足够的时间的情况下缓慢地将整个数据添加到驱动器中,因此基本上没有问题。

答案2

许多在线文件共享服务都有大小限制。例如,Dropbox 限制为 100 GB,或 250 GB,添加的工具OneDrive 还需要额外付费文件大小限制为 250 GB。

然而,分割和重新合并大文件是很容易的。可以使用 Windows 工具来执行此操作,例如 GSplit,并且众多选择

最后,考虑一下“Sneakernet”。我工作过的一家公司发现,每周通过邮件发送硬盘来传输庞大的数据库是最方便和最经济的。然而,现在 SD 和 µSD 卡更加实用是否能经受住邮件处理,例如 X 射线。请查阅承运商运送此类卡的政策。考虑到某些网络的数据传输速率,隔夜送达数据卡可能更快,而且比额外的数据存储费用更便宜。

答案3

TL;DR:等待一天。Google Drive 文件大小限制为 5TB,因此这看起来并不是仅与文件大小相关的问题;一次又一次地尝试,您只是在拖延上传文件的时间。


错误信息的链接指向一个 Google Collaboratory 页面,更具体地说是以下解释:

为什么 Drive 操作有时会因配额而失败?
Google Drive 强制执行各种限制,包括每个用户和每个文件的操作数和带宽配额。超出这些限制将触发上述输入/输出错误,并在 Colab UI 中显示通知。典型原因是访问热门共享文件,或过快访问太多不同文件。解决方法包括:

使用 drive.google.com 复制文件,但不要广泛共享,以免其他用户用尽其限制。避免进行多次小型 I/O 读取,而是选择以存档格式(例如 .zip 或 .tar.gz 文件)将数据从 Drive 复制到 Colab VM,并在 VM 本地(而不是在已安装的 Drive 目录中)解压数据。等待一天以重置配额限制。

请注意,上面写着等待一天以重置配额限制

Google Workspace 的存储和上传限制

驱动器上传限制

个人用户每天只能在“我的云端硬盘”和所有共享云端硬盘之间上传 750 GB。达到 750 GB 限制或上传文件大于 750 GB 的用户当天无法上传更多文件。正在进行的上传将会完成。您可以上传或同步的最大单个文件大小为 5 TB。

您可以在 Google Drive 中存储的文件

文件大小

以下是您可以在 Google Drive 中存储的最大文件大小:

...

所有其他文件

最多 5 TB。

相关内容