Failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error

sk.ahmed401 · November 12, 2020, 2:54pm

I am trying to run detectnet_v2. But when I start training the model its failing, And outside nvidia-smi is not showing any GPU allocation.
I am able to run in previous run. But suddenly its throwing this error.

Using TensorFlow backend.
2020-11-12 14:44:01.612610: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcudart.so.10.0
2020-11-12 14:44:05.541190: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcuda.so.1
2020-11-12 14:44:05.542487: E tensorflow/stream_executor/cuda/cuda_driver.cc:318] failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error
2020-11-12 14:44:05.542526: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:169] retrieving CUDA diagnostic information for host: a8a3d0b951f1
2020-11-12 14:44:05.542540: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: a8a3d0b951f1
2020-11-12 14:44:05.542614: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:200] libcuda reported version is: 440.100.0
2020-11-12 14:44:05.542644: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:204] kernel reported version is: 440.100.0
2020-11-12 14:44:05.542657: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:310] kernel version seems to match DSO: 440.100.0
2020-11-12 14:44:05,543 [INFO] iva.detectnet_v2.scripts.train: Loading experiment spec at /workspace/face-mask-detection/tlt_specs/detectnet_v2_train_resnet18_kitti.txt.
2020-11-12 14:44:05,544 [INFO] iva.detectnet_v2.spec_handler.spec_loader: Merging specification from /workspace/face-mask-detection/tlt_specs/detectnet_v2_train_resnet18_kitti.txt

Layer (type) Output Shape Param # Connected to

input_1 (InputLayer) (None, 3, 1536, 2048 0

conv1 (Conv2D) (None, 64, 768, 1024 9472 input_1[0][0]

bn_conv1 (BatchNormalization) (None, 64, 768, 1024 256 conv1[0][0]

activation_1 (Activation) (None, 64, 768, 1024 0 bn_conv1[0][0]

block_1a_conv_1 (Conv2D) (None, 64, 384, 512) 36928 activation_1[0][0]

block_1a_bn_1 (BatchNormalizati (None, 64, 384, 512) 256 block_1a_conv_1[0][0]

block_1a_relu_1 (Activation) (None, 64, 384, 512) 0 block_1a_bn_1[0][0]

block_1a_conv_2 (Conv2D) (None, 64, 384, 512) 36928 block_1a_relu_1[0][0]

block_1a_conv_shortcut (Conv2D) (None, 64, 384, 512) 4160 activation_1[0][0]

block_1a_bn_2 (BatchNormalizati (None, 64, 384, 512) 256 block_1a_conv_2[0][0]

block_1a_bn_shortcut (BatchNorm (None, 64, 384, 512) 256 block_1a_conv_shortcut[0][0]

add_1 (Add) (None, 64, 384, 512) 0 block_1a_bn_2[0][0]
block_1a_bn_shortcut[0][0]

block_1a_relu (Activation) (None, 64, 384, 512) 0 add_1[0][0]

block_1b_conv_1 (Conv2D) (None, 64, 384, 512) 36928 block_1a_relu[0][0]

block_1b_bn_1 (BatchNormalizati (None, 64, 384, 512) 256 block_1b_conv_1[0][0]

block_1b_relu_1 (Activation) (None, 64, 384, 512) 0 block_1b_bn_1[0][0]

block_1b_conv_2 (Conv2D) (None, 64, 384, 512) 36928 block_1b_relu_1[0][0]

block_1b_bn_2 (BatchNormalizati (None, 64, 384, 512) 256 block_1b_conv_2[0][0]

add_2 (Add) (None, 64, 384, 512) 0 block_1b_bn_2[0][0]
block_1a_relu[0][0]

block_1b_relu (Activation) (None, 64, 384, 512) 0 add_2[0][0]

block_2a_conv_1 (Conv2D) (None, 128, 192, 256 73856 block_1b_relu[0][0]

block_2a_bn_1 (BatchNormalizati (None, 128, 192, 256 512 block_2a_conv_1[0][0]

block_2a_relu_1 (Activation) (None, 128, 192, 256 0 block_2a_bn_1[0][0]

block_2a_conv_2 (Conv2D) (None, 128, 192, 256 147584 block_2a_relu_1[0][0]

block_2a_conv_shortcut (Conv2D) (None, 128, 192, 256 8320 block_1b_relu[0][0]

block_2a_bn_2 (BatchNormalizati (None, 128, 192, 256 512 block_2a_conv_2[0][0]

block_2a_bn_shortcut (BatchNorm (None, 128, 192, 256 512 block_2a_conv_shortcut[0][0]

add_3 (Add) (None, 128, 192, 256 0 block_2a_bn_2[0][0]
block_2a_bn_shortcut[0][0]

block_2a_relu (Activation) (None, 128, 192, 256 0 add_3[0][0]

block_2b_conv_1 (Conv2D) (None, 128, 192, 256 147584 block_2a_relu[0][0]

block_2b_bn_1 (BatchNormalizati (None, 128, 192, 256 512 block_2b_conv_1[0][0]

block_2b_relu_1 (Activation) (None, 128, 192, 256 0 block_2b_bn_1[0][0]

block_2b_conv_2 (Conv2D) (None, 128, 192, 256 147584 block_2b_relu_1[0][0]

block_2b_bn_2 (BatchNormalizati (None, 128, 192, 256 512 block_2b_conv_2[0][0]

add_4 (Add) (None, 128, 192, 256 0 block_2b_bn_2[0][0]
block_2a_relu[0][0]

block_2b_relu (Activation) (None, 128, 192, 256 0 add_4[0][0]

block_3a_conv_1 (Conv2D) (None, 256, 96, 128) 295168 block_2b_relu[0][0]

block_3a_bn_1 (BatchNormalizati (None, 256, 96, 128) 1024 block_3a_conv_1[0][0]

block_3a_relu_1 (Activation) (None, 256, 96, 128) 0 block_3a_bn_1[0][0]

block_3a_conv_2 (Conv2D) (None, 256, 96, 128) 590080 block_3a_relu_1[0][0]

block_3a_conv_shortcut (Conv2D) (None, 256, 96, 128) 33024 block_2b_relu[0][0]

block_3a_bn_2 (BatchNormalizati (None, 256, 96, 128) 1024 block_3a_conv_2[0][0]

block_3a_bn_shortcut (BatchNorm (None, 256, 96, 128) 1024 block_3a_conv_shortcut[0][0]

add_5 (Add) (None, 256, 96, 128) 0 block_3a_bn_2[0][0]
block_3a_bn_shortcut[0][0]

block_3a_relu (Activation) (None, 256, 96, 128) 0 add_5[0][0]

block_3b_conv_1 (Conv2D) (None, 256, 96, 128) 590080 block_3a_relu[0][0]

block_3b_bn_1 (BatchNormalizati (None, 256, 96, 128) 1024 block_3b_conv_1[0][0]

block_3b_relu_1 (Activation) (None, 256, 96, 128) 0 block_3b_bn_1[0][0]

block_3b_conv_2 (Conv2D) (None, 256, 96, 128) 590080 block_3b_relu_1[0][0]

block_3b_bn_2 (BatchNormalizati (None, 256, 96, 128) 1024 block_3b_conv_2[0][0]

add_6 (Add) (None, 256, 96, 128) 0 block_3b_bn_2[0][0]
block_3a_relu[0][0]

block_3b_relu (Activation) (None, 256, 96, 128) 0 add_6[0][0]

block_4a_conv_1 (Conv2D) (None, 512, 96, 128) 1180160 block_3b_relu[0][0]

block_4a_bn_1 (BatchNormalizati (None, 512, 96, 128) 2048 block_4a_conv_1[0][0]

block_4a_relu_1 (Activation) (None, 512, 96, 128) 0 block_4a_bn_1[0][0]

block_4a_conv_2 (Conv2D) (None, 512, 96, 128) 2359808 block_4a_relu_1[0][0]

block_4a_conv_shortcut (Conv2D) (None, 512, 96, 128) 131584 block_3b_relu[0][0]

block_4a_bn_2 (BatchNormalizati (None, 512, 96, 128) 2048 block_4a_conv_2[0][0]

block_4a_bn_shortcut (BatchNorm (None, 512, 96, 128) 2048 block_4a_conv_shortcut[0][0]

add_7 (Add) (None, 512, 96, 128) 0 block_4a_bn_2[0][0]
block_4a_bn_shortcut[0][0]

block_4a_relu (Activation) (None, 512, 96, 128) 0 add_7[0][0]

block_4b_conv_1 (Conv2D) (None, 512, 96, 128) 2359808 block_4a_relu[0][0]

block_4b_bn_1 (BatchNormalizati (None, 512, 96, 128) 2048 block_4b_conv_1[0][0]

block_4b_relu_1 (Activation) (None, 512, 96, 128) 0 block_4b_bn_1[0][0]

block_4b_conv_2 (Conv2D) (None, 512, 96, 128) 2359808 block_4b_relu_1[0][0]

block_4b_bn_2 (BatchNormalizati (None, 512, 96, 128) 2048 block_4b_conv_2[0][0]

add_8 (Add) (None, 512, 96, 128) 0 block_4b_bn_2[0][0]
block_4a_relu[0][0]

block_4b_relu (Activation) (None, 512, 96, 128) 0 add_8[0][0]

output_bbox (Conv2D) (None, 4, 96, 128) 2052 block_4b_relu[0][0]

output_cov (Conv2D) (None, 1, 96, 128) 513 block_4b_relu[0][0]

Total params: 11,197,893
Trainable params: 11,188,165
Non-trainable params: 9,728

2020-11-12 14:44:13,498 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: Serial augmentation enabled = False
2020-11-12 14:44:13,499 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: Pseudo sharding enabled = False
2020-11-12 14:44:13,499 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: Max Image Dimensions (all sources): (0, 0)
2020-11-12 14:44:13,499 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: number of cpus: 12, io threads: 24, compute threads: 12, buffered batches: 4
2020-11-12 14:44:13,499 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: total dataset size 1143, number of sources: 1, batch size per gpu: 1, steps: 1143
2020-11-12 14:44:13,598 [INFO] iva.detectnet_v2.dataloader.default_dataloader: Bounding box coordinates were detected in the input specification! Bboxes will be automatically converted to polygon coordinates.
2020-11-12 14:44:13,849 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: shuffle: True - shard 0 of 1
2020-11-12 14:44:13,855 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: sampling 1 datasets with weights:
2020-11-12 14:44:13,855 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: source: 0 weight: 1.000000
2020-11-12 14:44:14.139235: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcudart.so.10.0
2020-11-12 14:44:14,346 [INFO] iva.detectnet_v2.scripts.train: Found 1143 samples in training set
2020-11-12 14:44:16,462 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: Serial augmentation enabled = False
2020-11-12 14:44:16,462 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: Pseudo sharding enabled = False
2020-11-12 14:44:16,462 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: Max Image Dimensions (all sources): (0, 0)
2020-11-12 14:44:16,463 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: number of cpus: 12, io threads: 24, compute threads: 12, buffered batches: 4
2020-11-12 14:44:16,463 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: total dataset size 285, number of sources: 1, batch size per gpu: 1, steps: 285
2020-11-12 14:44:16,490 [INFO] iva.detectnet_v2.dataloader.default_dataloader: Bounding box coordinates were detected in the input specification! Bboxes will be automatically converted to polygon coordinates.
2020-11-12 14:44:16,822 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: shuffle: False - shard 0 of 1
2020-11-12 14:44:16,827 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: sampling 1 datasets with weights:
2020-11-12 14:44:16,828 [INFO] modulus.blocks.data_loaders.multi_source_loader.data_loader: source: 0 weight: 1.000000
2020-11-12 14:44:17,158 [INFO] iva.detectnet_v2.scripts.train: Found 285 samples in validation set
2020-11-12 14:44:43.045772: E tensorflow/core/common_runtime/executor.cc:648] Executor failed to create kernel. Invalid argument: Conv2DCustomBackpropInputOp only supports NHWC.
[[{{node gradients/resnet18_nopool_bn_detectnet_v2/output_bbox/convolution_grad/Conv2DBackpropInput}}]]
Traceback (most recent call last):
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1365, in _do_call
return fn(*args)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1350, in _run_fn
target_list, run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1443, in _call_tf_sessionrun
run_metadata)
tensorflow.python.framework.errors_impl.InvalidArgumentError: Conv2DCustomBackpropInputOp only supports NHWC.
[[{{node gradients/resnet18_nopool_bn_detectnet_v2/output_bbox/convolution_grad/Conv2DBackpropInput}}]]

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File “/usr/local/bin/tlt-train-g1”, line 8, in
sys.exit(main())
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/common/magnet_train.py”, line 55, in main
File “”, line 2, in main
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/utilities/timer.py”, line 46, in wrapped_fn
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 773, in main
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 691, in run_experiment
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 624, in train_gridbox
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 149, in run_training_loop
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 754, in run
run_metadata=run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1360, in run
raise six.reraise(*original_exc_info)
File “/usr/local/lib/python3.6/dist-packages/six.py”, line 693, in reraise
raise value
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1345, in run
return self._sess.run(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1418, in run
run_metadata=run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1176, in run
return self._sess.run(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 956, in run
run_metadata_ptr)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1180, in _run
feed_dict_tensor, options, run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1359, in _do_run
run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1384, in _do_call
raise type(e)(node_def, op, message)
tensorflow.python.framework.errors_impl.InvalidArgumentError: Conv2DCustomBackpropInputOp only supports NHWC.
[[node gradients/resnet18_nopool_bn_detectnet_v2/output_bbox/convolution_grad/Conv2DBackpropInput (defined at /usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py:1748) ]]

Original stack trace for ‘gradients/resnet18_nopool_bn_detectnet_v2/output_bbox/convolution_grad/Conv2DBackpropInput’:
File “/usr/local/bin/tlt-train-g1”, line 8, in
sys.exit(main())
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/common/magnet_train.py”, line 55, in main
File “”, line 2, in main
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/utilities/timer.py”, line 46, in wrapped_fn
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 773, in main
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 691, in run_experiment
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 599, in train_gridbox
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 454, in build_training_graph
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/model/detectnet_model.py”, line 583, in build_training_graph
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/training/train_op_generator.py”, line 59, in get_train_op
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/training/train_op_generator.py”, line 74, in _get_train_op_without_cost_scaling
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/optimizer.py”, line 419, in minimize
grad_loss=grad_loss)
File “/usr/local/lib/python3.6/dist-packages/horovod/tensorflow/init.py”, line 253, in compute_gradients
gradients = self._optimizer.compute_gradients(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/optimizer.py”, line 537, in compute_gradients
colocate_gradients_with_ops=colocate_gradients_with_ops)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/gradients_impl.py”, line 158, in gradients
unconnected_gradients)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/gradients_util.py”, line 703, in _GradientsHelper
lambda: grad_fn(op, *out_grads))
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/gradients_util.py”, line 362, in _MaybeCompile
return grad_fn() # Exit early
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/gradients_util.py”, line 703, in
lambda: grad_fn(op, *out_grads))
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/nn_grad.py”, line 596, in _Conv2DGrad
data_format=data_format),
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/gen_nn_ops.py”, line 1407, in conv2d_backprop_input
name=name)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/op_def_library.py”, line 794, in _apply_op_helper
op_def=op_def)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/util/deprecation.py”, line 507, in new_func
return func(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py”, line 3357, in create_op
attrs, op_def, compute_device)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py”, line 3426, in _create_op_internal
op_def=op_def)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py”, line 1748, in init
self._traceback = tf_stack.extract_stack()

…which was originally created as op ‘resnet18_nopool_bn_detectnet_v2/output_bbox/convolution’, defined at:
File “/usr/local/bin/tlt-train-g1”, line 8, in
sys.exit(main())
[elided 6 identical lines from previous traceback]
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/scripts/train.py”, line 454, in build_training_graph
File “/home/vpraveen/.cache/dazel/_dazel_vpraveen/715c8bafe7816f3bb6f309cd506049bb/execroot/ai_infra/bazel-out/k8-py3-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/detectnet_v2/model/detectnet_model.py”, line 557, in build_training_graph
File “/usr/local/lib/python3.6/dist-packages/keras/engine/base_layer.py”, line 457, in call
output = self.call(inputs, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/keras/engine/network.py”, line 564, in call
output_tensors, _, _ = self.run_internal_graph(inputs, masks)
File “/usr/local/lib/python3.6/dist-packages/keras/engine/network.py”, line 721, in run_internal_graph
layer.call(computed_tensor, **kwargs))
File “/usr/local/lib/python3.6/dist-packages/keras/layers/convolutional.py”, line 171, in call
dilation_rate=self.dilation_rate)
File “/opt/nvidia/third_party/keras/tensorflow_backend.py”, line 102, in conv2d
data_format=tf_data_format,
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/nn_ops.py”, line 921, in convolution
name=name)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/nn_ops.py”, line 1032, in convolution_internal
name=name)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/ops/gen_nn_ops.py”, line 1071, in conv2d
data_format=data_format, dilations=dilations, name=name)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/op_def_library.py”, line 794, in _apply_op_helper
op_def=op_def)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/util/deprecation.py”, line 507, in new_func
return func(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py”, line 3357, in create_op
attrs, op_def, compute_device)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py”, line 3426, in _create_op_internal
op_def=op_def)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/framework/ops.py”, line 1748, in init
self._traceback = tf_stack.extract_stack()

Morganh · November 13, 2020, 2:07am

You mentioned that nvidia-smi is not showing any GPU allocation.
Please check if you install the nvidia gpu driver.

sk.ahmed401 · November 13, 2020, 3:37am

I can able to see nvidia-smi output in both outside the container and inside the container. But I can’t see the GPU allocation.

±----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
±----------------------------------------------------------------------------+`

±----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 1074 G /usr/lib/xorg/Xorg 45MiB |
| 0 2026 G /usr/lib/xorg/Xorg 143MiB |
| 0 2288 G /usr/bin/gnome-shell 87MiB |
±----------------------------------------------------------------------------+

Morganh · November 13, 2020, 7:42am

Did you install cudnn?
Reference: failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error · Issue #24243 · tensorflow/tensorflow · GitHub

sk.ahmed401 · November 20, 2020, 10:59am

After restart the issue is resolved

Topic		Replies	Views
TLT Detectnet TrafficCamNet training not working TAO Toolkit	10	2482	October 12, 2021
Problem with training peoplenetv2 TAO Toolkit	5	834	October 12, 2021
Out Of Memory Error While Training Peoplenet Model TAO Toolkit	2	438	March 8, 2022
Slow GPU workaround for NHWC error when training TAO Toolkit	7	1222	October 12, 2021
Errors encountered when using TAO to train LPRnet TAO Toolkit	19	696	November 17, 2021
Detectnet_v2: Assertion Error while training and validation Frameworks	0	573	October 1, 2021
Tao detectnet_v2 train failed with g_error_metadata.to_exception in autograph module TAO Toolkit tao	12	1393	January 10, 2022
Object Detection using TAO DetectNet_v2. The category accuracy results are missing TAO Toolkit	17	659	January 13, 2022
Fail to initialize CUDNN when running tensorflow: CUDNN_STATUS_INTERNAL_ERROR Jetson AGX Xavier tensorflow , cudnn	7	2798	October 18, 2021
ERROR: failed to run cuBLAS routine: CUBLAS_STATUS_EXECUTION_FAILED TAO Toolkit	2	12549	October 12, 2021

Failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error

Layer (type) Output Shape Param # Connected to

output_cov (Conv2D) (None, 1, 96, 128) 513 block_4b_relu[0][0]

Related topics