AMD ROCm 问题(HSA_STATUS_ERROR_OUT_OF_RESOURCES 等)

AMD ROCm 问题(HSA_STATUS_ERROR_OUT_OF_RESOURCES 等)

我只是想安装 AMD ROCm,这样我就可以在我的 PC 上使用 PyTorch(GPU)。安装后我遇到了问题。我在 YouTube 上观看了安装 AMD ROCm 的教程:https://www.youtube.com/watch?v=efKjfBkjPlM我使用的是 AMD 的这个文档页面:https://rocmdocs.amd.com/en/latest/Installation_Guide/Installation-Guide.html#ubuntu

我的电脑规格:

操作系统:Ubuntu 20.04 LTS x86_64 内核:5.4.0-40-generic Shell:bash 5.0.16 CPU:AMD A10-9700 @ 3.5GHz GPU:AMD ATI Radeon R5 M230/ R7 M260DX / Radeon 520 Mobile RAM:8GB DDR4

我遇到的错误:

每当我在终端输入“rocminfo”时,我都会遇到这个错误:

Unable to open /dev/kfd read-write: Bad address
someone is member of someone group
hsa api call failure at: /src/rocminfo/rocminfo.cc:1142 Call returned HSA_STATUS_ERROR_OUT_OF_RESOURCES: The runtime failed to allocate the necessary resources. This error may also occur when the core runtime library needs to spawn threads or create internal OS-specific events.

我不知道这是否是一个错误,但仅供参考,当我输入“clinfo”时,我得到了:

Number of platforms                               1
  Platform Name                                   AMD Accelerated Parallel Processing
  Platform Vendor                                 Advanced Micro Devices, Inc.
  Platform Version                                OpenCL 2.0 AMD-APP (3137.0)
  Platform Profile                                FULL_PROFILE
  Platform Extensions                             cl_khr_icd cl_amd_event_callback 
  Platform Extensions function suffix             AMD
  Platform Name                                   AMD Accelerated Parallel Processing
Number of devices                                 0
NULL platform behavior
  clGetPlatformInfo(NULL, CL_PLATFORM_NAME, ...)  No platform
  clGetDeviceIDs(NULL, CL_DEVICE_TYPE_ALL, ...)   No platform
  clCreateContext(NULL, ...) [default]            No platform
  clCreateContext(NULL, ...) [other]              No platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_DEFAULT)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_CPU)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_GPU)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_ACCELERATOR)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_CUSTOM)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_ALL)  No devices found in platform

如果有人能帮忙,哪怕只是一件简单的事情,我也会非常感激。谢谢。

答案1

一般来说,要让 rocm 正常工作,需要发生两件事。

首先,您的 CPU/主板必须支持 PCIE Atomics。目前尚不清楚 Bristol Ridge 是否支持它,但 PCIE 通道也需要是直接的(而不是转换的)。

最好的猜测是,您很可能无法使其与您的硬件一起工作。

还有相当多的制造商没有正确实施 BIOS 表。华硕就是其中之一,但还有其他制造商。(例如,使用 Ryzen 5 Raven Ridge CPU + Prime B450-Plus 主板进行测试时,会出现完全相同的错误,并且在最新固件更新之前可以访问,即如果您不更新 AGESA)。

您可以在此处找到更多信息。具体来说,是有关 Bristol Ridge 支持和 OEM/ODM 选择的部分。 https://github.com/RadeonOpenCompute/ROCm#supported-cpus

相关内容