FP16 cudnnConvolutionForward

454193977 · May 23, 2019, 7:58am

How do you do real FP16 calculations? The FP16 has the same speed as the FP32。

My code looks like this

device：jetson xavier
cuda 10.01
jetpack：4.2

cudnnCreateTensorDescriptor(&input_descriptor);
    CHECK_CUDNN(cudnnSetTensor4dDescriptor(input_descriptor,
                               CUDNN_TENSOR_NCHW,
                               dataType,
                               b, in_channel, in_h, in_w ));
    cudnnCreateFilterDescriptor(&kernel_descriptor);
 
    CHECK_CUDNN(cudnnSetFilter4dDescriptor(kernel_descriptor,
                               dataType,
                               CUDNN_TENSOR_NCHW,
                               num_output, in_channel, kernel_h, kernel_w));
    
    cudnnCreateTensorDescriptor(&output_descriptor);
    CHECK_CUDNN(cudnnSetTensor4dDescriptor(output_descriptor,
                               CUDNN_TENSOR_NCHW,
                               dataType,
                               b, out_channel, out_h, out_w));
                               
    cudnnCreateTensorDescriptor(&bias_descriptor);
    CHECK_CUDNN(cudnnSetTensor4dDescriptor(bias_descriptor,
                               CUDNN_TENSOR_NCHW,
                               dataType,
                               1, out_channel, 1, 1));
     
    // convolution descriptor
    cudnnCreateConvolutionDescriptor(&conv_descriptor);
    CHECK_CUDNN(cudnnSetConvolution2dDescriptor(conv_descriptor,
                                    pad_w, pad_h, // zero-padding
                                    stride_w, stride_h, // stride
                                    dilation_w, dilation_h, //dilation
                                    CUDNN_CROSS_CORRELATION, CUDNN_DATA_FLOAT));
    cudnnSetConvolutionMathType(conv_descriptor, CUDNN_TENSOR_OP_MATH);
    // algorithm
    CHECK_CUDNN(cudnnGetConvolutionForwardAlgorithm(handle,
                                        input_descriptor,
                                        kernel_descriptor,
                                        conv_descriptor,
                                        output_descriptor,
                                        CUDNN_CONVOLUTION_FWD_PREFER_FASTEST,
                                        0,
                                        &algo));                         
    CHECK_CUDNN(cudnnGetConvolutionForwardWorkspaceSize(handle,
                                            input_descriptor,
                                            kernel_descriptor,
                                            conv_descriptor,
                                            output_descriptor,
                                            algo,
                                            &workspace_size));

    CHECK(cudaMalloc(&workspace, workspace_size));

remi.coulom · June 14, 2019, 3:14pm

On a Volta GPU, you must use NHWC tensors, and channels must be a multiple of 8. Also cudnnSetConvolution2dDescriptor should use CUDNN_DATA_HALF instead of CUDNN_DATA_FLOAT.

Topic		Replies	Views
Depthwise convolution in cudnn fp16 is slow than fp32 Jetson AGX Xavier cudnn	5	1496	August 4, 2020
cuDNN fp16 Support Jetson TX1	3	4096	July 22, 2016
cuDNN v4 FFT Forward Convolution with half precision tensors GPU-Accelerated Libraries	1	1580	January 10, 2016
Incresement of work_space allocation using cudnn v7.6.x to do convolution with FP16 data type cuDNN	1	3215	January 29, 2020
How to get better conv performance with cudnn? cuDNN	1	839	September 25, 2023
What is f16f16_f16f16_f16 in cudnn gemm kernel cuDNN cuda , kernel	1	1001	December 26, 2022
On Jetson Xavier, which is faster: pseudo FP16 or true FP16? Jetson AGX Xavier tensorrt	4	629	June 22, 2022
cudnn BatchNorm, Pooling get wrong result for float 16 data cuDNN	1	690	February 5, 2019
Convolutional backward filter algorithm returns no supported results cuDNN	5	1007	April 6, 2020
Poor group convolution performance in fp16 Jetson Nano	2	1441	February 10, 2020

FP16 cudnnConvolutionForward

Related topics