醋醋百科网

Good Luck To You!

NVIDIA Tensor Core对RTX显卡光线追踪的性能影响

记得有一次跟朋友们聊技术,谈到NVIDIA为什么不在GeForce消费级显卡上砍掉Tensor Core时,我顺手发了一句很大众化的答案:“因为要配合RT光线追踪来用”。如果没记错的化,NV自己就是这样说的,不过如果较真一点,似乎可以引出2个问题:


1、RT Core硬件光追单元,必须要Tensor Core配合才能工作吗?


2、如果支持不用Tensor Core的话,在两种情况下光线追踪的性能相差多少?


今天正巧我在《NVIDIA AMPERE GA102 GPU ARCHITECTURE(Second-Generation RTX)》白皮书里看到了答案,也不算啥新闻了,顺手简单写点东西分享给大家。


GA10x StreamingMultiprocessor (SM)


上图是Ampere GA10x架构GPU中的一组流处理器单元,可以看出第三代Tensor Core和INT32整数单元、FP32浮点单元已经是并列关系。而第二代RT Core相对独立,每个SM模块中配置1个。



在Turing时代,NVIDIA GPU的浮点单元已经支持按照FP32单精度性能的2倍来处理FP16半精度浮点计算。而到了Ampere架构,由于INT32整数单元也能改用于浮点,所以FP32性能也翻倍了。



这张图就到本文的重点了。针对上一代图灵架构的RTX 2080 Super测试,单纯使用Shader“软件处理”光线追踪用时51ms;启用RT Core(但不一起用Tensor Core)提速到20ms;而全部一起加上Tensor Core之后只要12ms。


开头的2个问题,一下就都有答案了。



再看安培架构的RTX 3080运行同一测试,除了整体性能比2080 Super更好之外,新一代RT Core对光线追踪的加速效率也有所提高



最后再提一下安培架构RT Core对运动模糊(Motion Blur)的优化。原理图那些我就不在这里重复了,Blender渲染测试是实在一些的东西(也可能用了“典型”场景),可以看出在Quador RTX 6000上需要373秒来处理的运动模糊,在最新的RTX A6000上只需要56秒了。


先写到这里,希望对大家有点参考:)


扩展阅读:《让45W TDP CPU稳跑75W的秘密:Blender渲染测试(含Optix去噪点)


参考资料
https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf


注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,邮箱:490834312#qq.com(改#为@)。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

尊重知识,转载时请保留全文。感谢您的阅读和支持!

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言