将大型在线文件上传到谷歌云

将大型在线文件上传到谷歌云

我想将大型图像文件上传到谷歌云,以便在 RStudio 上进行机器学习。

每个图像压缩包大约 4.7GB,解压比下载花费的时间更长。我想知道是否有办法使用当前的 Kaggle url 将图像文件上传到 Google Cloud,例如:https://www.kaggle.com/c/5174/download/Images_1.zip 或者https://www.kaggle.com/c/avito-duplicate-ads-detection/data在 VM RStudio 上快速提取它们以进行数据分析?

答案1

您是否已在 Linux VM 中安装了 RStudio?如果是,您可以使用命令通过 ssh 进入您的实例sudo gcloud compute ssh <your-instance-name> --zone <your-instance-zone>,然后使用获得从您的实例内部下载文件:

wget https://www.kaggle.com/c/5174/download/Images_1.zip

wget 可能会在下载过程中断开连接,但您可以使用上面描述的选项关联这将帮助您成功下载,例如 -t 和 -c 选项分别用于尝试多次下载或继续获取部分下载的文件。

下载文件后,您可以使用7ZIP使用以下命令将文件解压到下载的目录中: 7z e Images_1.zip
您可以将文件复制到GCP 存储桶使用以下命令:
gsutil cp Images_1 gs://<your-bucket-name>

如果虚拟机中未安装 wget 和 7zip,您可以按照说明进行安装,获得7zip,如下所示。此示例适用于 Ubuntu 或 Debian Linux VM:

sudo apt-get update
sudo apt-get install wget
sudo apt-get install p7zip-full

只需按照安装说明进行操作即可。

相关内容