完整数据备份至 Amazon S3

Question 1

我有使用以下方法备份的丰富经验表里不一。如果您能够创建快照并以只读方式挂载它，那么进行一致的增量备份是一个非常好的选择。

通常，备份数据库（MongoDB、ElasticSearch、MySQL，随便什么都可以）的问题在于一致性。备份常见文件也存在同样的问题，但对于数据库来说，数据损坏的风险可能是最高的。

你的选择很少（希望其他人能增加更多）

转储数据库并备份转储。这是最简单、最安全和最直接的方法。
停止数据库（或使用其他方法使磁盘上的数据一致）并进行备份。（这样会导致长时间停机，并非总是可能的）
停止数据库（如 #2 所示），创建快照（卷或 fs，确保 fs 此时一致），启动数据库，以只读方式挂载快照并备份。但并非所有设置都适合此操作。
停止数据库（如 #2 所示），创建快照（这次它仅适用于卷，请确保此时 fs 一致），启动数据库，将快照备份为块设备。这可能会增加备份的大小，并且可能并非在所有配置上都可行。
备份实时数据库文件，并希望它在恢复时能够正常工作。（你这是在玩火。）如果可能的话，远离这个。
如果您的技术有特殊的备份方式，请使用这种方式。（例如从 ELB 到 S3 的直接快照备份。）

无论你选择哪种方式，请记住你绝对应该测试您是否能够从备份中恢复多次，来自几个不同的备份。

#!/bin/bash
BACKUP_BASE="/data/backups/"
DIRNAME="mongo"
BUCKET="mybackups"
ARCHIVE_DIR="/data/backups_duplicity_archives/${DIRNAME}"
VERBOSE="-v 4"
S3_PARAMS="--s3-use-new-style" # --s3-use-multiprocessing" # --s3-use-rrs"
export PASSPHRASE="something"
export AWS_ACCESS_KEY_ID="AN_ID"
export AWS_SECRET_ACCESS_KEY="A_KEY"

cd ${BACKUP_BASE}
rm -rf ${BACKUP_BASE}/${DIRNAME}
/usr/bin/mongodump -h 10.0.0.1 -o ${BACKUP_BASE}/${DIRNAME}/databasename --oplog

/usr/bin/duplicity $S3_PARAMS --asynchronous-upload ${VERBOSE} --archive-dir=${ARCHIVE_DIR} incr --full-if-older-than 14D ${BACKUP_BASE}/${DIRNAME} "s3+http://${BUCKET}/${DIRNAME}"
if [ ! $! ]; then
        /usr/bin/duplicity $S3_PARAMS ${VERBOSE} --archive-dir=${ARCHIVE_DIR} remove-all-but-n-full 12 --force "s3+http://${BUCKET}/${DIRNAME}"
        /usr/bin/duplicity $S3_PARAMS ${VERBOSE} --archive-dir=${ARCHIVE_DIR} remove-all-inc-of-but-n-full 4 --force "s3+http://${BUCKET}/${DIRNAME}"
fi

Answer

我有使用以下方法备份的丰富经验表里不一。如果您能够创建快照并以只读方式挂载它，那么进行一致的增量备份是一个非常好的选择。

通常，备份数据库（MongoDB、ElasticSearch、MySQL，随便什么都可以）的问题在于一致性。备份常见文件也存在同样的问题，但对于数据库来说，数据损坏的风险可能是最高的。

你的选择很少（希望其他人能增加更多）

转储数据库并备份转储。这是最简单、最安全和最直接的方法。
停止数据库（或使用其他方法使磁盘上的数据一致）并进行备份。（这样会导致长时间停机，并非总是可能的）
停止数据库（如 #2 所示），创建快照（卷或 fs，确保 fs 此时一致），启动数据库，以只读方式挂载快照并备份。但并非所有设置都适合此操作。
停止数据库（如 #2 所示），创建快照（这次它仅适用于卷，请确保此时 fs 一致），启动数据库，将快照备份为块设备。这可能会增加备份的大小，并且可能并非在所有配置上都可行。
备份实时数据库文件，并希望它在恢复时能够正常工作。（你这是在玩火。）如果可能的话，远离这个。
如果您的技术有特殊的备份方式，请使用这种方式。（例如从 ELB 到 S3 的直接快照备份。）

无论你选择哪种方式，请记住你绝对应该测试您是否能够从备份中恢复多次，来自几个不同的备份。

#!/bin/bash
BACKUP_BASE="/data/backups/"
DIRNAME="mongo"
BUCKET="mybackups"
ARCHIVE_DIR="/data/backups_duplicity_archives/${DIRNAME}"
VERBOSE="-v 4"
S3_PARAMS="--s3-use-new-style" # --s3-use-multiprocessing" # --s3-use-rrs"
export PASSPHRASE="something"
export AWS_ACCESS_KEY_ID="AN_ID"
export AWS_SECRET_ACCESS_KEY="A_KEY"

cd ${BACKUP_BASE}
rm -rf ${BACKUP_BASE}/${DIRNAME}
/usr/bin/mongodump -h 10.0.0.1 -o ${BACKUP_BASE}/${DIRNAME}/databasename --oplog

/usr/bin/duplicity $S3_PARAMS --asynchronous-upload ${VERBOSE} --archive-dir=${ARCHIVE_DIR} incr --full-if-older-than 14D ${BACKUP_BASE}/${DIRNAME} "s3+http://${BUCKET}/${DIRNAME}"
if [ ! $! ]; then
        /usr/bin/duplicity $S3_PARAMS ${VERBOSE} --archive-dir=${ARCHIVE_DIR} remove-all-but-n-full 12 --force "s3+http://${BUCKET}/${DIRNAME}"
        /usr/bin/duplicity $S3_PARAMS ${VERBOSE} --archive-dir=${ARCHIVE_DIR} remove-all-inc-of-but-n-full 4 --force "s3+http://${BUCKET}/${DIRNAME}"
fi

Question 2

数据大小已达到该过程占用过多磁盘空间的程度，并且文件无法一次性上传到 S3。

将它们作为单独的文件上传。您可能没有进行某种花哨的重复数据删除，如果您将其更改为基于引用，将会很有帮助。

到目前为止，已经通过转储整个 MongoDB 数据库完成了备份

有增量备份工具（https://github.com/EqualExperts/Tayra) 用于 MongoDB。如果您的更新负载相对较低，我会考虑使用这些。

由于您使用的是 Digital Ocean，因此无法进行本地备份。不过，这是需要从战略角度考虑的问题。如果您直接托管在 Amazon 上，那么将文件系统快照保存到 S3 可能会对您有所帮助。

Answer