Have written C++-ish wrappers for the CUDA Runtime API - wanna try them out?

hazelnutvt04 · July 2, 2020, 2:20pm

Could I get an example of how to use Managed Memory and a non-default stream? I am using a Jetson Xavier which has a shared GPU memory and CPU memory. I was initially using zero copy, but switched to using Managed Memory per recommendation here:

Then I have a pipeline of kernels based on this recommendation:

Overall, I want the cuda-api-wrapper equivalent of:

cudaMallocManaged( (void**)input_raw_ptr, num_bytes, cudaMemAttachHost );
cudaMalloc( (void**)intermediate_data1_raw_ptr, num_immed_bytes );
cudaMalloc( (void**)intermediate_data2_raw_ptr, num_immed_bytes );
cudaMallocManaged( (void**)output_raw_ptr, num_output_bytes );

// No cudaMemcpy HtoD needed.

my_kernel1<<< blocks_per_thread, threads_per_block, 0, stream >>>( immed_data1_raw_ptr, input_raw_ptr, num_vals );
my_kernel2<<< blocks_per_thread, threads_per_block, 0, stream >>>( immed_data2_raw_ptr, immed_data1_raw_ptr, num_immed_vals );
my_kernel3<<< blocks_per_thread, threads_per_block, 0, stream >>>( output_raw_ptr, immed_data2_raw_ptr, num_output_vals );

cudaStreamAttachMemAsync(stream, output_raw_ptr, 0, cudaMemAttachHost);
cudaStreamSynchronize(stream);

// No cudaMemcpy DtoH needed.

// Use output_raw_ptr data in host code

Topic		Replies	Views
Problem regarding data transfer overlap between multiple asynchronous streams CUDA Programming and Performance	8	799	September 11, 2016
Wishlist Place your considered suggestions here CUDA Programming and Performance	201	204313	April 13, 2009
Can I create a pinned memory buffer to support overlapping compute/copy without cudaMallocHost overhead CUDA Programming and Performance cuda	13	777	November 3, 2020
CUDA 2.2 pinned memory white paper CUDA Programming and Performance	7	6884	July 1, 2010
Inferior Results on C2070 when Using Streams CUDA Programming and Performance	3	1927	March 6, 2012
CUDA thread in background? CUDA Programming and Performance	10	15984	February 19, 2010
Should I program with Driver API? newbie here CUDA Programming and Performance	8	2231	July 20, 2010
Maximizing Unified Memory Performance in CUDA Technical Blog	18	1182	May 14, 2019
How to Overlap Data Transfers in CUDA C/C++ Technical Blog	23	2186	January 18, 2023
c++ Project file management using CUDA Where to put the CUDA code? CUDA Programming and Performance	3	3063	August 30, 2011

Have written C++-ish wrappers for the CUDA Runtime API - wanna try them out?

Related topics