Ubuntu 服务器。Nvidia 3060 从未达到 P0/P1 性能状态(无最大时钟)

Ubuntu 服务器。Nvidia 3060 从未达到 P0/P1 性能状态(无最大时钟)

我有多台配备不同 NVIDIA 显卡的 ubuntu 22.04 服务器,但它们都从未达到高于 P2 的功率状态,因此从未达到最大时钟速度。

我已尝试了很多次,但似乎没有什么能让卡价更高。

    root@pod0003:~# nvidia-smi -q -a                                                     
                                                                                         
    ==============NVSMI LOG==============                                                
                                                                                         
    Timestamp                                 : Fri Jan 27 19:00:11 2023                 
    Driver Version                            : 525.78.01                                
    CUDA Version                              : 12.0                                     
                                                                                         
    Attached GPUs                             : 1                                        
    GPU 00000000:05:00.0                                                                 
        Product Name                          : NVIDIA GeForce RTX 3060                  
        Product Brand                         : GeForce                                  
        Product Architecture                  : Ampere                                   
        Display Mode                          : Disabled                                 
        Display Active                        : Disabled                                 
        Persistence Mode                      : Enabled                                  
        MIG Mode                                                                         
            Current                           : N/A                                      
            Pending                           : N/A                                      
        Accounting Mode                       : Disabled                                 
        Accounting Mode Buffer Size           : 4000                                     
        Driver Model                                                                     
            Current                           : N/A                                      
            Pending                           : N/A                                      
        Serial Number                         : N/A                                      
        GPU UUID                              : GPU-1fbe1409-48f9-577f-c063-1e5d895d900b 
        Minor Number                          : 0                                        
        VBIOS Version                         : 94.06.4D.00.1B                           
        MultiGPU Board                        : No                                       
        Board ID                              : 0x500                                    
        Board Part Number                     : N/A                                      
        GPU Part Number                       : 2544-302-A1                              
        Module ID                             : 1                                        
        Inforom Version             
       Image Version                     : G001.0000.94.01  
       OEM Object                        : 2.0              
       ECC Object                        : N/A              
       Power Management Object           : N/A              
   GPU Operation Mode                                       
       Current                           : N/A              
       Pending                           : N/A              
   GSP Firmware Version                  : N/A              
   GPU Virtualization Mode                                  
       Virtualization Mode               : None             
       Host VGPU Mode                    : N/A              
   IBMNPU                                                   
       Relaxed Ordering Mode             : N/A              
   PCI                                                      
       Bus                               : 0x05             
       Device                            : 0x00             
       Domain                            : 0x0000           
       Device Id                         : 0x254410DE       
       Bus Id                            : 00000000:05:00.0 
       Sub System Id                     : 0x397D1462       
       GPU Link Info                                        
           PCIe Generation                                  
               Max                       : 4                
               Current                   : 4                
               Device Current            : 4                
               Device Max                : 4                
               Host Max                  : 4                
           Link Width                                       
               Max                       : 16x              
               Current                   : 16x              
       Bridge Chip                                          
           Type                          : N/A              
           Firmware                      : N/A              
       Replays Since Reset               : 0                
       Replay Number Rollovers           : 0                
       Tx Throughput                     : 32000 KB/s       
       Rx Throughput                     : 95000 KB/s       
       Atomic Caps Inbound               : N/A              
       Atomic Caps Outbound              : N/A              
   Fan Speed                             : 42 %             
   Performance State                     : P2         
   Clocks Throttle Reasons                            
       Idle                              : Not Active 
       Applications Clocks Setting       : Not Active 
       SW Power Cap                      : Not Active 
       HW Slowdown                       : Not Active 
           HW Thermal Slowdown           : Not Active 
           HW Power Brake Slowdown       : Not Active 
       Sync Boost                        : Not Active 
       SW Thermal Slowdown               : Not Active 
       Display Clock Setting             : Not Active 
   FB Memory Usage                                    
       Total                             : 8192 MiB   
       Reserved                          : 218 MiB    
       Used                              : 5886 MiB   
       Free                              : 2087 MiB   
   BAR1 Memory Usage                                  
       Total                             : 8192 MiB   
       Used                              : 7 MiB      
       Free                              : 8185 MiB   
   Compute Mode                          : Default    
   Utilization                                        
       Gpu                               : 100 %       
       Memory                            : 91 %       
       Encoder                           : 0 %        
       Decoder                           : 0 %        
   Encoder Stats                                      
       Active Sessions                   : 0          
       Average FPS                       : 0          
       Average Latency                   : 0          
   FBC Stats                                          
       Active Sessions                   : 0          
       Average FPS                       : 0          
       Average Latency                   : 0          
   Ecc Mode                                           
       Current                           : N/A        
       Pending                           : N/A        
   ECC Errors                                         
       Volatile                                       
           SRAM Correctable              : N/A        
           SRAM Uncorrectable            : N/A        
           DRAM Correctable              : N/A        
           DRAM Uncorrectable            : N/A        
       Aggregate                                      
           SRAM Correctable              : N/A        
           SRAM Uncorrectable            : N/A        
           DRAM Correctable              : N/A        
           DRAM Uncorrectable            : N/A        
   Retired Pages                                      
       Single Bit ECC                    : N/A        
       Double Bit ECC                    : N/A        
       Pending Page Blacklist            : N/A        
   Remapped Rows                         : N/A        
   Temperature                                        
       GPU Current Temp                  : 62 C       
       GPU Shutdown Temp                 : 98 C       
       GPU Slowdown Temp                 : 95 C       
       GPU Max Operating Temp            : 93 C       
       GPU Target Temperature            : 83 C       
       Memory Current Temp               : N/A        
       Memory Max Operating Temp         : N/A        
   Power Readings                                     
       Power Management                  : Supported  
       Power Draw                        : 118.71 W   
       Power Limit                       : 170.00 W   
       Default Power Limit               : 170.00 W   
       Enforced Power Limit              : 170.00 W   
       Min Power Limit                   : 100.00 W   
       Max Power Limit                   : 170.00 W   
   Clocks                                             
       Graphics                          : 1957 MHz   
       SM                                : 1957 MHz   
       Memory                            : 7300 MHz   
       Video                             : 1717 MHz   
   Applications Clocks                                
       Graphics                          : N/A        
       Memory                            : N/A        
   Default Applications Clocks                        
       Graphics                          : N/A        
       Memory                            : N/A        
   Deferred Clocks                                                            
       Memory                            : N/A                                
   Max Clocks                                                                 
       Graphics                          : 2130 MHz                           
       SM                                : 2130 MHz                           
       Memory                            : 7501 MHz                           
       Video                             : 1950 MHz                           
   Max Customer Boost Clocks                                                  
       Graphics                          : N/A                                
   Clock Policy                                                               
       Auto Boost                        : N/A                                
       Auto Boost Default                : N/A                                
   Voltage                                                                    
       Graphics                          : 1081.250 mV                        
   Fabric                                                                     
       State                             : N/A                                
       Status                            : N/A                                
   Processes                                                                  
       GPU instance ID                   : N/A                                
       Compute instance ID               : N/A                                
       Process ID                        : 9165                               
           Type                          : G                                  
           Name                          : /usr/lib/xorg/Xorg                 
           Used GPU Memory               : 5 MiB                              
       GPU instance ID                   : N/A                                
       Compute instance ID               : N/A                                
       Process ID                        : 9902                               
           Type                          : C                                  
           Name                          : /home/tk/jupyter/panenv/bin/python 
           Used GPU Memory               : 2938 MiB                           

                                                     

从此日志中可以看出,没有激活节流阀原因。但我卡在性能状态 P2,时钟速度为:

   Graphics                          : 1957 MHz   
   SM                                : 1957 MHz   
   Memory                            : 7300 MHz   
   Video                             : 1717 MHz   

而最大值为:

   Graphics                          : 2130 MHz                           
   SM                                : 2130 MHz                           
   Memory                            : 7501 MHz                           
   Video                             : 1950 MHz  

最值得注意的是我尝试过:

X :0 &                                          
export DISPLAY=:0                               
nvidia-settings -a "[gpu:0]/GpuPowerMizerMode=1"

但无济于事。

我使用这张卡进行 TensorFlow 模型训练。该系统是 Gigabyte B550 上的 Ryzen 12 核心,启用了可调整大小的栏和 PCIe gen 4,可以看出使用得很好。电源为 750 瓦

根据英伟达P 状态意味着:

P0/P1 - Maximum 3D performance
P2/P3 - Balanced 3D performance-power
P8 - Basic HD video playback
P10 - DVD playback
P12 - Minimum idle power consumption

那么我在这里遗漏了什么?

答案1

我刚刚偶然发现

NVIDIA“CUDA – Force P2 State”官方背景我们向 NVIDIA 询问了此功能,他们回复道:

[…] 基本上,我们添加了这个 p 状态,因为在运行大型数据集时,某些 CUDA 应用程序以最大内存时钟运行会导致内存错误。想想 DL 应用程序、石油勘探用例等,在这些情况下,您需要处理大量数据,并且内存时钟满时会出错。这些类型的应用程序实际上不应该在 GeForce 上运行,但由于有很多人这样做并且遇到了这个问题,我们为他们创建了这种新模式。

所以最终这是一个应该接受的稳定性权衡。

相关内容