why is cublasHgemm is slower than cublasSgemm when matrix is low dimension

ltb_args · January 22, 2019, 8:58am

float16; size 2 average: 1.74688e-05 s
float16; size 4 average: 1.09478e-05 s
float16; size 8 average: 1.2503e-05 s
float16; size 16 average: 1.40813e-05 s
float16; size 32 average: 2.8359e-05 s
float16; size 64 average: 2.8888e-05 s
float16; size 128 average: 3.22976e-05 s
float16; size 256 average: 3.71114e-05 s
float16; size 512 average: 7.82048e-05 s
float16; size 1024 average: 0.00015296 s
float16; size 2048 average: 0.000850379 s
float16; size 4096 average: 0.00551006 s
float16; size 8192 average: 0.0416439 s
float16; size 16384 average: 0.327726 s
float16; size 32768 average: 2.85781 s

float32; size 2 average: 1.26912e-05 s
float32; size 4 average: 8.088e-06 s
float32; size 8 average: 8.12896e-06 s
float32; size 16 average: 1.2599e-05 s
float32; size 32 average: 1.2537e-05 s
float32; size 64 average: 1.32061e-05 s
float32; size 128 average: 1.02701e-05 s
float32; size 256 average: 1.40413e-05 s
float32; size 512 average: 3.95216e-05 s
float32; size 1024 average: 0.000205253 s
float32; size 2048 average: 0.00137492 s
float32; size 4096 average: 0.012989 s
float32; size 8192 average: 0.0829209 s
float32; size 16384 average: 0.655603 s
float32; size 32768 average: 6.79938 s

when size >512 the time of float 16 <float32

Topic		Replies	Views
why cublasHgemm is slower more than cublasSgemm when I use? GPU-Accelerated Libraries	6	4412	January 22, 2019
cublasHgemm is slower than cublasSgemm in CUDA 11.1 when I use? GPU-Accelerated Libraries	2	550	December 1, 2020
cublasHgemm did not faster than cublasSgemm on 2080Ti GPU-Accelerated Libraries cuda	2	612	September 14, 2020
Why does cublasSgemm uses `f16` for `float`? GPU-Accelerated Libraries cublas	7	1444	March 8, 2023
fp32 sgemm and fp16 hgemm CUDA Programming and Performance	0	1793	July 4, 2016
Slow CUDA SGEMM CUDA Programming and Performance	5	753	September 15, 2022
Multiplying FP16 large matrices with cublasLtMatmul on RTX 3070 and V100 GPU-Accelerated Libraries cublas	0	69	March 31, 2025
Is cublasHgemm pure half multiplication? GPU-Accelerated Libraries cublas	4	1021	January 24, 2023
my speedy SGEMM CUDA Programming and Performance	91	276549	May 29, 2013
Some results in A100 with cuBLAS and cuBLASLt GPU-Accelerated Libraries cublas	1	176	January 9, 2025

why is cublasHgemm is slower than cublasSgemm when matrix is low dimension

Related topics