了解使用 nvenc 在 ffmpeg 中编码 10 位视频时的像素格式和配置文件

Question 1

...尽管它支持 main10，但不支持 10 位像素格式：

硬件 HEVC 编码器使用像素格式p010le和p016le10 位输出，其中第一个产生yuv 4:2:0，第二个产生yuv 4:4:4。

如果我禁用回退到 p010le，则输出将是位深度：8 位，但格式配置文件：Main 10@L5@Main。这是什么意思？

配置文件指定了设备播放视频的最低能力，反之，编码器指定了可用于编码视频的最大值。

这意味着：如果您指定视频为 Main 10@L5@Main，则可以在任何支持 10bit 格式且能够解码至少 25Mbps 的电视上播放。但是这并没有告诉编码器如何实际编码视频而是告诉它视频每样本最多可有 10 位，比特率不能超过 25Mbps，这意味着如果编码器以 5Mbps 创建 8 位视频，它仍然满足给定的条件并且可以将视频标记为 Main 10@L5@Main。

如果您想告诉编码器应该使用什么色彩深度和比特率，您必须通过其他参数指定它（见下文）。

下面是我使用 Pascal 编码器（GTX 10x0 卡）将视频从 AVC 转换为 HEVC 10 位时使用的命令：

ffmpeg -y -hide_banner -hwaccel nvdec -hwaccel_device 0 -vsync 0 -i "input.mp4" -c copy -c:v:0 hevc_nvenc -profile:v main10 -pix_fmt p010le -rc:v:0 vbr_hq -rc-lookahead 32 -cq 21 -qmin 1 -qmax 51 -b:v:0 10M -maxrate:v:0 20M -gpu 0 "output.mkv"

可以在较新的 Turing (GTX 20x0) 和 Ampere (RTX 30x0) 编码器上使用的类似命令：

ffmpeg -y -hide_banner -vsync 0 -hwaccel cuda -hwaccel_output_format cuda  -hwaccel_device 0 -c:v:0 h264_cuvid -i "input.mp4" -vf "hwdownload,format=nv12" -c copy -c:v:0 hevc_nvenc -profile:v main10 -pix_fmt p010le -rc:v:0 vbr -tune hq -preset p5 -multipass 1 -bf 4 -b_ref_mode 1 -nonref_p 1 -rc-lookahead 75 -spatial-aq 1 -aq-strength 8 -temporal-aq 1 -cq 21 -qmin 1 -qmax 99 -b:v:0 10M -maxrate:v:0 20M -gpu 0 "output.mkv"

参数解释：

-pix_fmt p010le将 8 位输入转换为 10 位；请注意，转换由 CPU 完成，因此它会使编码速度变慢，但会产生更高质量的视频，并且在 CRF 中比特率也更低（文件更小）。对于 CUDA 解码器必须与-vf "hwdownload,format=nv12"（或-vf "hwdownload,format=p010le"对于 10 位输入视频）一起使用，以将解码后的帧从 CUDA 复制到 CPU 进行转换（NVDEC 解码器会自动将帧发送到 CPU）。-profile main10需要指定以允许 10 位编码，但实际上并不影响编码器对视频进行编码的方式 - 编码器本身不会改变输入的位深度！
-rc:v:0 vbr_hq -cq 21 -qmin 1 -qmax 99是需要完全启用 CRF 模式。增加qmin以降低比特率峰值，降低qmax以防止低质量帧（建议在没有 AQ 的情况下进行编码）。在 Turing 和 Ampere 上使用-rc:v:0 vbr -tune hq而不是vbr_hq可获得相同的结果。顺便说一下，HEVC 是推荐的质量-cq 28（或-cq 30启用 AQ）。
-b:v:0 10M -maxrate:v:0 20M指定目标设备支持的建议和最大比特率。对于主层 @L5，您最多可以使用 25M，对于 @L6，最大为 60Mbps（适用于 30fps 视频）。硬件编码器也需要这个了解如何在CRF模式下计算QP值。我使用 10M/20M 来将视频存储在 NAS 上并通过 LAN 在电视上播放。
present=slow启用 2 次处理和其他高级优化；由于硬件编码器比软件编码器更快，因此你可以使用慢的预设，处理速度仍然比从 CPU 开始快得多快点预设。在安培上，你必须使用-preset p5 -multipass 2等于慢的预设（你可以达到p7等于非常慢但在大多数情况下对文件大小几乎没有额外的影响；您可以使用-multipass 14 倍更快的第一次传递）。
hwaccell启用硬件解码器并指定哪个设备将解码视频（如果您有 SLI）。根据您的 CPU 速度，您可以测试哪个最适合您。NVDEC 可以解码任何 MPEG 视频，但速度较慢；对于更快的 CUDA，您必须指定源是 AVC、HEVC 还是 AV1。对于 DivX、Xvid 和非 MPEG 输入，请将其完全删除以切换到使用 CPU 的软件解码器。
-bf 4 -b_ref_mode 1 -nonref_p 1改进了 Turing 和 Ampere 上的 B 帧处理（请注意，它不支持h264_nvenc）。
或者，如果您的光源光照不均匀（闪烁的灯光或大量淡入/淡出），您可以使用-bf 0 -weighted_pred 1加权预测而不是 B 帧来获得更好的质量和更小的文件（但是禁用 B 帧会增加其他具有稳定光照的光源的文件大小）。
-rc-lookahead 75 -spatial-aq 1 -aq-strength 8 -temporal-aq 1启用自适应量词Turing 和 Ampere 均支持。这可在 CRF 模式下以相同或更低的比特率提高视频质量。更改rc-lookahead以获得更快的速度或更好的质量。aq-strength如果您在非常暗的颜色中看到伪影，请增加。
-gpu 0如果您有 SLI 或板载（Intel/AMD）卡，请使用指定使用哪个设备对视频进行编码。
此外，您还可以使用 CUDA 解码器添加-resize WIDTHxHEIGHT和/或-crop TOPxBOTTOMxLEFTxRIGHT（在-i参数之前）来使用硬件解码器更改输入。这比使用CPU 完成的-vf scale速度更快。-vf crop

Answer

...尽管它支持 main10，但不支持 10 位像素格式：