gsutil rsync 上的同步阶段很慢?

gsutil rsync 上的同步阶段很慢?

我刚刚开始使用 GCS 作为我的网络服务器的备份。一台服务器有 120 万张 JPEG(3.5TB),所有这些都在 10 小时左右内完美地同步。

另一个有 250 万张 JPEG(不过只是缩略图/预览 - 总共 300GB)。我第一次这样做时,“建立同步状态”很快就浏览了所有 250 万张。几分钟。但我的会话被中断了(wifi 断线),当我通过 SSH 登录尝试再次运行它时,“在源列表中”提示快速浏览了 10000、20000、30000。然后几乎停滞不前。半小时后,它只剩下 300,000 张。我知道它必须计算出目标还有哪些文件,但我认为这不会显著减慢“在源列表中...”的回声?

这是否表明我的文件系统有问题?如果是,我应该检查什么?

或者说,出于某种原因,这是否是预期的行为?

尝试使用 gsutil rsync 将 200 万个文件同步到一个 bucket 是不是一个坏主意?我在 Google 上找不到关于一个 bucket 中可以存放多少个文件的指南,所以我假设它是数十亿/无限的?

FWIW 文件全部位于嵌套子目录中,任何一个目录中的文件不超过 2000 个。

谢谢

编辑:我使用的确切命令是:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www

答案1

我发现改变

output_chunk.writelines(unicode(''.join(current_chunk)))

output_chunk.write(unicode(''.join(current_chunk)))

/gsutil/gslib/commands/rsync.py 中的更改有很大不同。感谢 GS 团队的 Mike 提供的帮助 - 这个简单的更改已在 github 上推出:

https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2

相关内容