Topics tagged cublas

Topic	Replies	Views	Activity
Do any SDKs have the matrix Covariance functions GPU-Accelerated Libraries camera , opencv , cuda , kernel , cublas	0	18	August 25, 2024
The Grouped_gemm failed to run on multiple-gpu environment GPU-Accelerated Libraries cublas	1	80	August 23, 2024
cuBLAS EVD function not satisfy AV = VD GPU-Accelerated Libraries cublas	5	45	August 21, 2024
Upgrading to CUDA 12.4 broke down the application GPU-Accelerated Libraries cublas , cusparse	13	1164	July 21, 2024
Is it necessary to tune cublas to get the best performance? GPU-Accelerated Libraries cublas	3	89	July 17, 2024
Predicate register as last operand in load instructions GPU-Accelerated Libraries cuda , kernel , cublas	0	110	June 27, 2024
FP8 Benchmark Program for RTX 4090 GPU-Accelerated Libraries cublas	0	697	June 17, 2024
cublasCreate is very slow (7min) on Jetson Orin GPU-Accelerated Libraries cuda , cublas	2	203	June 14, 2024
Fp8/fp16 accumulation on ada RTX 4090 GPU-Accelerated Libraries cuda , cublas	2	1202	June 5, 2024
cublasLT FP8 GPU-Accelerated Libraries cublas	1	1143	May 27, 2024
Accuracy of cuBLAS gemm with integers as 32-bit floats GPU-Accelerated Libraries cublas	1	226	May 23, 2024
Why is TN format required for FP8 in cublasLtMatmul()? GPU-Accelerated Libraries cublas	0	228	May 11, 2024
[cuBLASDx] TF32 support? GPU-Accelerated Libraries cublas	0	196	May 7, 2024
H100 PCIe hgemm cannot reach peak performance GPU-Accelerated Libraries cublas , cutlass	4	439	May 6, 2024
Bad performance of cublas for extremely small matrix multiplication? GPU-Accelerated Libraries cublas	4	941	May 1, 2024
Optimizing Sequential cuBLAS Calls for Matrix Operations—Alternatives to Kernel Fusion? GPU-Accelerated Libraries cublas	3	475	April 29, 2024
SDPA example in CublasDX GPU-Accelerated Libraries cublas	1	314	April 28, 2024
Cublas data layout in GPU GPU-Accelerated Libraries cublas	7	339	April 22, 2024
cuBLAS launch 5 times threads blocks more than expected GPU-Accelerated Libraries cublas	4	454	April 11, 2024
Undefined reference to `cublasCreate_v2' GPU-Accelerated Libraries cublas	16	31359	April 9, 2024
Inaccurate results for int8 in cublasGemmEx GPU-Accelerated Libraries cublas	4	546	April 19, 2024
cublasGemmEx() should not return success when the scaler type is not correct GPU-Accelerated Libraries cublas	0	244	April 2, 2024
Graph Capture of cublasDdot in Device Pointer Mode GPU-Accelerated Libraries cublas	3	402	March 26, 2024
How to use negative leading dimension in cuBLASLt matmul interface? GPU-Accelerated Libraries cublas	0	248	March 13, 2024
cuBLAS Level-1 amax execution error GPU-Accelerated Libraries cublas	1	292	March 11, 2024
Large % of time in cuBLAS calls spent in clock_gettime GPU-Accelerated Libraries cublas	3	303	March 6, 2024
Minor bugs in header file "cublasmp.h" of cuBLASMp GPU-Accelerated Libraries cublas	1	315	March 5, 2024
Can not compile cublas file in windows10 GPU-Accelerated Libraries cublas	3	391	March 19, 2024
Stripmining matmul for bandwidth optimization host-to-gpu for LLM computation GPU-Accelerated Libraries cublas	2	413	February 26, 2024
Tensor core architecture deep-dive any whitepaper blog available? GPU-Accelerated Libraries cudnn , cublas	1	971	February 20, 2024