Fix cuDNN convolution precision on Ampere+ GPUs #3127

joelnn · 2025-12-28T17:42:19Z

On Ampere and later GPUs (SM 8.0+), cuDNN's default math mode permits TF32 Tensor Core operations which use reduced mantissa precision. This causes numerical differences when comparing CUDA vs CPU convolution results, particularly in cudnnConvolutionBackwardFilter().

Explicitly set CUDNN_FMA_MATH to force true FP32 computation for consistent numerical results across all GPU architectures.

On Ampere and later GPUs (SM 8.0+), cuDNN's default math mode permits TF32 Tensor Core operations which use reduced mantissa precision. This causes numerical differences when comparing CUDA vs CPU convolution results, particularly in cudnnConvolutionBackwardFilter(). Explicitly set CUDNN_FMA_MATH to force true FP32 computation for consistent numerical results across all GPU architectures.

davisking · 2025-12-28T20:38:11Z

Sweet, thanks for another PR :D

davisking merged commit 07c1e73 into davisking:master Dec 28, 2025
10 of 11 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Fix cuDNN convolution precision on Ampere+ GPUs #3127

Fix cuDNN convolution precision on Ampere+ GPUs #3127

Uh oh!

joelnn commented Dec 28, 2025

Uh oh!

davisking commented Dec 28, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Fix cuDNN convolution precision on Ampere+ GPUs #3127

Fix cuDNN convolution precision on Ampere+ GPUs #3127

Uh oh!

Conversation

joelnn commented Dec 28, 2025

Uh oh!

davisking commented Dec 28, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants