我有一个大约 100GB 大小的数据库。每天数据库必须更新大约 8GB 的数据。使用第三方(Apple)编写的脚本(python)将数据导入数据库。数据是数据库中不同表的文件集合。
目前每天更新数据库大约需要 15 个小时。我在本地机器上运行更新(四核 2.6GHz、6GB Ram、32 位 Ubuntu 11 和 MySQL 5.1)。
最终,这个过程将被卸载到 Amazon EC2 服务。优化这个过程的最佳方法是什么,以便显著减少每天提取所有数据所需的时间?
非常感谢您的建议。谢谢。
答案1
使用 CSV 文件LOAD DATA INFILE
比运行 SQL 快得多。
另一种选择是通过启动多个客户端或使用 Maatkit 的mk-并行-恢复