我只是想安装 AMD ROCm,这样我就可以在我的 PC 上使用 PyTorch(GPU)。安装后我遇到了问题。我在 YouTube 上观看了安装 AMD ROCm 的教程:https://www.youtube.com/watch?v=efKjfBkjPlM我使用的是 AMD 的这个文档页面:https://rocmdocs.amd.com/en/latest/Installation_Guide/Installation-Guide.html#ubuntu。
我的电脑规格:
操作系统:Ubuntu 20.04 LTS x86_64 内核:5.4.0-40-generic Shell:bash 5.0.16 CPU:AMD A10-9700 @ 3.5GHz GPU:AMD ATI Radeon R5 M230/ R7 M260DX / Radeon 520 Mobile RAM:8GB DDR4
我遇到的错误:
每当我在终端输入“rocminfo”时,我都会遇到这个错误:
Unable to open /dev/kfd read-write: Bad address
someone is member of someone group
hsa api call failure at: /src/rocminfo/rocminfo.cc:1142 Call returned HSA_STATUS_ERROR_OUT_OF_RESOURCES: The runtime failed to allocate the necessary resources. This error may also occur when the core runtime library needs to spawn threads or create internal OS-specific events.
我不知道这是否是一个错误,但仅供参考,当我输入“clinfo”时,我得到了:
Number of platforms 1
Platform Name AMD Accelerated Parallel Processing
Platform Vendor Advanced Micro Devices, Inc.
Platform Version OpenCL 2.0 AMD-APP (3137.0)
Platform Profile FULL_PROFILE
Platform Extensions cl_khr_icd cl_amd_event_callback
Platform Extensions function suffix AMD
Platform Name AMD Accelerated Parallel Processing
Number of devices 0
NULL platform behavior
clGetPlatformInfo(NULL, CL_PLATFORM_NAME, ...) No platform
clGetDeviceIDs(NULL, CL_DEVICE_TYPE_ALL, ...) No platform
clCreateContext(NULL, ...) [default] No platform
clCreateContext(NULL, ...) [other] No platform
clCreateContextFromType(NULL, CL_DEVICE_TYPE_DEFAULT) No devices found in platform
clCreateContextFromType(NULL, CL_DEVICE_TYPE_CPU) No devices found in platform
clCreateContextFromType(NULL, CL_DEVICE_TYPE_GPU) No devices found in platform
clCreateContextFromType(NULL, CL_DEVICE_TYPE_ACCELERATOR) No devices found in platform
clCreateContextFromType(NULL, CL_DEVICE_TYPE_CUSTOM) No devices found in platform
clCreateContextFromType(NULL, CL_DEVICE_TYPE_ALL) No devices found in platform
如果有人能帮忙,哪怕只是一件简单的事情,我也会非常感激。谢谢。
答案1
一般来说,要让 rocm 正常工作,需要发生两件事。
首先,您的 CPU/主板必须支持 PCIE Atomics。目前尚不清楚 Bristol Ridge 是否支持它,但 PCIE 通道也需要是直接的(而不是转换的)。
最好的猜测是,您很可能无法使其与您的硬件一起工作。
还有相当多的制造商没有正确实施 BIOS 表。华硕就是其中之一,但还有其他制造商。(例如,使用 Ryzen 5 Raven Ridge CPU + Prime B450-Plus 主板进行测试时,会出现完全相同的错误,并且在最新固件更新之前可以访问,即如果您不更新 AGESA)。
您可以在此处找到更多信息。具体来说,是有关 Bristol Ridge 支持和 OEM/ODM 选择的部分。 https://github.com/RadeonOpenCompute/ROCm#supported-cpus