我正在运行具有以下规格的 GCP Datalab VM:
n1-highmem-16 (16 vCPUs, 104 GB memory)
尽管有大量的 RAM,但当我尝试使用 300mb 的数据集运行我的训练脚本时,内核崩溃了。代码正在训练 NN,并且训练步骤顺利进行,但在测试集上进行评估时,它崩溃了 - 没有出现任何错误。
有人知道这是为什么吗,或者我该如何找出答案?
编辑:崩溃时出现的提示如下:
“内核似乎已死。它将自动重新启动 jupyter notebook”
答案1
我将其添加为评论:
您是否已经尝试过此解决方案[1] 最后一条评论?
这是一种值得尝试的好方法(我将其放在使用 tensorflow 或 keras 的任何脚本的开头)。如果您的批处理大小在合理范围内,这可以防止出现资源耗尽错误。