cudaGraphAddKernelNode doesn't work on host side.

grzesiek.urbanowicz · October 9, 2018, 9:42am

Hi,
I’m trying create very simple graph to add two numbers. Creating graph and memcpy works fine but “cudaGraphAddKernelNode” return code=8(cudaErrorInvalidDeviceFunction) when I compile by MSVC.

When I use NVCC it works.
Kernel is from ptx file so it should work well from MSVC.

float *inputNode1_d, *inputNode2_d;
	float *inputNode1_h, *inputNode2_h;
	float *outputNode_d, *outputNode_h;

	inputNode1_h = (float*)malloc(sizeof(float));
	inputNode2_h = (float*)malloc(sizeof(float));
	outputNode_h = (float*)malloc(sizeof(float));
	checkCudaErrors(cudaMalloc(&inputNode1_d, sizeof(float)));
	checkCudaErrors(cudaMalloc(&inputNode2_d, sizeof(float)));
	checkCudaErrors(cudaMalloc(&outputNode_d, sizeof(float)));

	*inputNode1_h = 1;
	*inputNode2_h = 1;
	*outputNode_h = 0;

	cudaStream_t streamForGraph;
	cudaGraph_t graph;
	std::vector<cudaGraphNode_t> nodeDependencies;
	cudaGraphNode_t memcpyNode_1, memcpyNode_2, kernelNode, memcpyNode_3;

	checkCudaErrors(cudaStreamCreate(&streamForGraph));

	cudaKernelNodeParams kernelNodeParams = { 0 };
	cudaHostNodeParams cudaHostNodeParams = { 0 };
	cudaMemcpy3DParms memcpyParams = { 0 };

	checkCudaErrors(cudaGraphCreate(&graph, 0));

	memcpyParams.srcArray = NULL;
	memcpyParams.srcPos = make_cudaPos(0, 0, 0);
	memcpyParams.srcPtr = make_cudaPitchedPtr(inputNode1_h, sizeof(float), 1, 1);
	memcpyParams.dstArray = NULL;
	memcpyParams.dstPos = make_cudaPos(0, 0, 0);
	memcpyParams.dstPtr = make_cudaPitchedPtr(inputNode1_d, sizeof(float), 1, 1);
	memcpyParams.extent = make_cudaExtent(sizeof(float), 1, 1);
	memcpyParams.kind = cudaMemcpyHostToDevice;

	checkCudaErrors(cudaGraphAddMemcpyNode(&memcpyNode_1, graph, NULL, 0, &memcpyParams));

	memset(&memcpyParams, 0, sizeof(memcpyParams));

	memcpyParams.srcArray = NULL;
	memcpyParams.srcPos = make_cudaPos(0, 0, 0);
	memcpyParams.srcPtr = make_cudaPitchedPtr(inputNode2_h, sizeof(float), 1, 1);
	memcpyParams.dstArray = NULL;
	memcpyParams.dstPos = make_cudaPos(0, 0, 0);
	memcpyParams.dstPtr = make_cudaPitchedPtr(inputNode2_d, sizeof(float), 1, 1);
	memcpyParams.extent = make_cudaExtent(sizeof(float), 1, 1);
	memcpyParams.kind = cudaMemcpyHostToDevice;

	checkCudaErrors(cudaGraphAddMemcpyNode(&memcpyNode_2, graph, NULL, 0, &memcpyParams));

	nodeDependencies.push_back(memcpyNode_1);
	nodeDependencies.push_back(memcpyNode_2);

	void *kernelArgs[4] = { (void*)&inputNode1_d, (void*)&inputNode2_d, (void*)&outputNode_d };

	kernelNodeParams.func = (void*)addKernel; // Here I put kernel loaded from ptx
	kernelNodeParams.gridDim = dim3(1, 1, 1);
	kernelNodeParams.blockDim = dim3(1, 1, 1);
	kernelNodeParams.sharedMemBytes = 0;
	kernelNodeParams.kernelParams = (void **)kernelArgs;
	kernelNodeParams.extra = NULL;

	checkCudaErrors(cudaGraphAddKernelNode(&kernelNode, graph, nodeDependencies.data(), nodeDependencies.size(), &kernelNodeParams));

	nodeDependencies.clear();
	nodeDependencies.push_back(kernelNode);

	memset(&memcpyParams, 0, sizeof(memcpyParams));

	memcpyParams.srcArray = NULL;
	memcpyParams.srcPos = make_cudaPos(0, 0, 0);
	memcpyParams.srcPtr = make_cudaPitchedPtr(outputNode_d, sizeof(float), 1, 1);
	memcpyParams.dstArray = NULL;
	memcpyParams.dstPos = make_cudaPos(0, 0, 0);
	memcpyParams.dstPtr = make_cudaPitchedPtr(outputNode_h, sizeof(float), 1, 1);
	memcpyParams.extent = make_cudaExtent(sizeof(float), 1, 1);
	memcpyParams.kind = cudaMemcpyDeviceToHost;
	checkCudaErrors(cudaGraphAddMemcpyNode(&memcpyNode_3, graph, nodeDependencies.data(), nodeDependencies.size(), &memcpyParams));

	cudaGraphNode_t *nodes = NULL;
	size_t numNodes = 0;
	checkCudaErrors(cudaGraphGetNodes(graph, nodes, &numNodes));
	printf("\nNum of nodes in the graph created manually = %zu\n", numNodes);

	cudaGraphExec_t graphExec;
	checkCudaErrors(cudaGraphInstantiate(&graphExec, graph, NULL, NULL, 0));
	checkCudaErrors(cudaGraphLaunch(graphExec, streamForGraph));

	checkCudaErrors(cudaStreamSynchronize(streamForGraph));
	checkCudaErrors(cudaGraphExecDestroy(graphExec));
	checkCudaErrors(cudaGraphDestroy(graph));
	checkCudaErrors(cudaStreamDestroy(streamForGraph));

	std::cout << *outputNode_h << std::endl;

	cudaFree(inputNode1_d);
	cudaFree(inputNode2_d);
	cudaFree(outputNode_d);
	cudaFree(outputNode_h);

Topic		Replies	Views
[CUDA Graph] add node from 3rd party library that contains CUDA kernel CUDA Programming and Performance	0	53	June 9, 2025
Getting error: identifier "cudaGraphAddMemcpyNode1D" is undefined Jetson Nano cuda	11	671	November 29, 2023
cudaGraphAddKernelNode() fails cuModuleGetFunction() function CUDA Programming and Performance	1	276	March 3, 2025
Unable to create CUDA graph nodes with null placeholder values CUDA Programming and Performance	3	133	January 26, 2025
[CUDA Graph] Add Node from 3rd party library that contains CUDA kernel calls CUDA Programming and Performance	1	81	June 9, 2025
Setting host memory via an hostnode before a memcopy node to device is not reflected in the device kernel execution CUDA Programming and Performance cuda	9	205	January 28, 2025
How to use the device-side CUDA Graph APIs? How to get hold of `cudaGraphDeviceNode_t`? GPU-Accelerated Libraries cuda	1	146	October 4, 2025
How to bind Host Functions to HostNodes? CUDA Programming and Performance	9	826	July 18, 2023
Is there any way to launch a graph from the HOST node? CUDA Programming and Performance	14	876	January 8, 2024
cudaGraph kernel node copy questiont CUDA Setup and Installation	2	1165	October 16, 2024

cudaGraphAddKernelNode doesn't work on host side.

Related topics