如果我错了,请纠正我,但我认为这更适用于 Unix,而不是 Apache Jena 或 Linux 的 Windows 子系统 - 毕竟,它是一个sort
似乎在没有日志的情况下消失的实用程序。
我正在遵循详细的过程这里将 Wiki 数据导入本地 Apache Jena 实例。我在 Windows 10 的 Linux 子系统上使用 Ubuntu 20.04。
数据阶段(数据导入)工作正常,但索引阶段(看这里)总是在没有通知的情况下崩溃。详细信息如下:
我正在 bash 中运行此脚本(--phase data
成功完成后):
apache-jena-3.15.0/bin/tdbloader2 --phase index --loc data/ > tdb1.log 2> tdb2.log &
这会将以下四个日志条目写入 tdb1.log:
12:09:02 INFO -- TDB Bulk Loader Start
12:09:02 INFO Index Building Phase
12:09:02 INFO Creating Index SPO
12:09:02 INFO Sort SPO
该脚本sort
内部使用。事实上,名为 的进程sort
运行大约 20 分钟,使用大约 15 GB 内存。此后,该进程将消失,恕不另行通知,也不会产生额外的日志。
我的问题是,如何找到崩溃的原因?不应该sort
写某种崩溃指示或事后分析吗?
如果有帮助的话,耶拿文档说
构建的索引阶段使用排序实用程序来准备用于索引的原始数据,这可能需要大量磁盘空间,如果磁盘空间看起来不足,脚本将自动检查并警告/中止。
我在哪里可以看到这个警告?不,可用磁盘空间超过 100 GB,所以我不认为这是一个直接原因。
答案1
发现输出中存在错误tdb2.log
(带有2>
管道运算符的错误)。
结果sort
磁盘空间不足。