尽管内存和 CPU 很高,Datalab 仍崩溃

尽管内存和 CPU 很高,Datalab 仍崩溃

我正在运行具有以下规格的 GCP Datalab VM:

n1-highmem-16 (16 vCPUs, 104 GB memory)

尽管有大量的 RAM,但当我尝试使用 300mb 的数据集运行我的训练脚本时,内核崩溃了。代码正在训练 NN,并且训练步骤顺利进行,但在测试集上进行评估时,它崩溃了 - 没有出现任何错误。

有人知道这是为什么吗,或者我该如何找出答案?

编辑:崩溃时出现的提示如下:

“内核似乎已死。它将自动重新启动 jupyter notebook”

答案1

我将其添加为评论:

您是否已经尝试过此解决方案[1] 最后一条评论?

这是一种值得尝试的好方法(我将其放在使用 tensorflow 或 keras 的任何脚本的开头)。如果您的批处理大小在合理范围内,这可以防止出现资源耗尽错误。

import tensorflow as tf config = tf.ConfigProto() config.gpu_options.allow_growth = True 现在创建会话时将此配置传递给它。sess = tf.Session(config=config)

[1]https://github.com/tensorflow/tensorflow/issues/9829

相关内容