Mask R-CNN stops abruptly while training using custom coco dataset

user95285 · January 27, 2022, 7:29am

I’m trying to train Mask R-CNN using a custom dataset that I have made and converted to coco format. My custom dataset only has one class. The training just stops suddenly after saving model.step-0.tlt without any error or warning. It is important to note that the training worked when I used the defualt coco dataset with 91 classes. But this problem occured when I used my custom dataset. I tried my custom dataset on multiple models including Mask RCNN from matterport (https://github.com/matterport/Mask_RCNN) and it works.

Command:
!tao mask_rcnn train -e $SPECS_DIR/maskrcnn_train_resnet50.txt
-d $USER_EXPERIMENT_DIR/experiment_dir_unpruned
-k $KEY
–gpus 2

Log:
For multi-GPU, change --gpus based on your machine.
2022-01-27 09:02:37,789 [INFO] root: Registry: [‘nvcr.io’]
2022-01-27 09:02:37,860 [INFO] tlt.components.instance_handler.local_instance: Running command in container: nvcr.io/nvidia/tao/tao-toolkit-tf:v3.21.11-tf1.15.5-py3
2022-01-27 09:02:37,894 [WARNING] tlt.components.docker_handler.docker_handler:
Docker will run the commands as root. If you would like to retain your
local host permissions, please add the “user”:“UID:GID” in the
DockerOptions portion of the “/home/abdulmajeed/.tao_mounts.json” file. You can obtain your
users UID and GID by using the “id -u” and “id -g” commands on the
terminal.
Using TensorFlow backend.
WARNING:tensorflow:Deprecation warnings have been disabled. Set TF_ENABLE_DEPRECATION_WARNINGS=1 to re-enable them.
WARNING:tensorflow:Deprecation warnings have been disabled. Set TF_ENABLE_DEPRECATION_WARNINGS=1 to re-enable them.
Using TensorFlow backend.
[INFO] Loading specification from /workspace/tao-experiments/mask_rcnn/specs/maskrcnn_train_resnet50.txt
Using TensorFlow backend.
[INFO] Loading specification from /workspace/tao-experiments/mask_rcnn/specs/maskrcnn_train_resnet50.txt
[MaskRCNN] INFO : Horovod successfully initialized …
INFO:tensorflow:Using config: {‘_model_dir’: ‘/tmp/tmpj4v4y22o’, ‘_tf_random_seed’: 123, ‘_save_summary_steps’: None, ‘_save_checkpoints_steps’: None, ‘_save_checkpoints_secs’: None, ‘_session_config’: intra_op_parallelism_threads: 1
inter_op_parallelism_threads: 8
gpu_options {
allow_growth: true
force_gpu_compatible: true
}
allow_soft_placement: true
graph_options {
rewrite_options {
meta_optimizer_iterations: TWO
}
}
, ‘_keep_checkpoint_max’: 20, ‘_keep_checkpoint_every_n_hours’: None, ‘_log_step_count_steps’: None, ‘_train_distribute’: None, ‘_device_fn’: None, ‘_protocol’: None, ‘_eval_distribute’: None, ‘_experimental_distribute’: None, ‘_experimental_max_worker_delay_secs’: None, ‘_session_creation_timeout_secs’: 7200, ‘_service’: None, ‘_cluster_spec’: <tensorflow.python.training.server_lib.ClusterSpec object at 0x7f246dd7c668>, ‘_task_type’: ‘worker’, ‘_task_id’: 0, ‘_global_id_in_cluster’: 0, ‘_master’: ‘’, ‘_evaluation_master’: ‘’, ‘_is_chief’: True, ‘_num_ps_replicas’: 0, ‘_num_worker_replicas’: 1}
INFO:tensorflow:Using config: {‘_model_dir’: ‘/tmp/tmpu5l3beqy’, ‘_tf_random_seed’: 124, ‘_save_summary_steps’: None, ‘_save_checkpoints_steps’: None, ‘_save_checkpoints_secs’: None, ‘_session_config’: intra_op_parallelism_threads: 1
inter_op_parallelism_threads: 8
gpu_options {
allow_growth: true
force_gpu_compatible: true
}
allow_soft_placement: true
graph_options {
rewrite_options {
meta_optimizer_iterations: TWO
}
}
, ‘_keep_checkpoint_max’: 20, ‘_keep_checkpoint_every_n_hours’: None, ‘_log_step_count_steps’: None, ‘_train_distribute’: None, ‘_device_fn’: None, ‘_protocol’: None, ‘_eval_distribute’: None, ‘_experimental_distribute’: None, ‘_experimental_max_worker_delay_secs’: None, ‘_session_creation_timeout_secs’: 7200, ‘_service’: None, ‘_cluster_spec’: <tensorflow.python.training.server_lib.ClusterSpec object at 0x7f81b1b3a390>, ‘_task_type’: ‘worker’, ‘_task_id’: 0, ‘_global_id_in_cluster’: 0, ‘_master’: ‘’, ‘_evaluation_master’: ‘’, ‘_is_chief’: True, ‘_num_ps_replicas’: 0, ‘_num_worker_replicas’: 1}
[MaskRCNN] INFO : Loading pretrained model…

INFO:tensorflow:Done calling model_fn.
[MaskRCNN] WARNING : Checkpoint is missing variable [l2/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [l2/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [l3/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [l3/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [l4/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [l4/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [l5/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [l5/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d2/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d2/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d3/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d3/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d4/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d4/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d5/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [post_hoc_d5/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [rpn/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [rpn/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [rpn-class/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [rpn-class/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [rpn-box/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [rpn-box/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [fc6/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [fc6/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [fc7/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [fc7/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [class-predict/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [class-predict/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [box-predict/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [box-predict/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l0/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l0/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l1/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l1/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l2/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l2/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l3/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask-conv-l3/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [conv5-mask/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [conv5-mask/bias]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask_fcn_logits/kernel]
[MaskRCNN] WARNING : Checkpoint is missing variable [mask_fcn_logits/bias]
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
fatal: not a git repository (or any of the parent directories): .git
fatal: not a git repository (or any of the parent directories): .git
[MaskRCNN] INFO : ============================ GIT REPOSITORY ============================
[MaskRCNN] INFO : BRANCH NAME:
[MaskRCNN] INFO : %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

[MaskRCNN] INFO : ============================ MODEL STATISTICS ===========================
[MaskRCNN] INFO : # Model Weights: 28,558,811
[MaskRCNN] INFO : # Trainable Weights: 43,975,515
[MaskRCNN] INFO : %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

[MaskRCNN] INFO : ============================ TRAINABLE VARIABLES ============= [MaskRCNN] INFO : [#0001] conv1/kernel:0 [MaskRCNN] INFO : [#0002] bn_conv1/gamma:0 [MaskRCNN] INFO : [#0003] bn_conv1/beta:0 [MaskRCNN] INFO : [#0004] block_1a_conv_1/kernel:0 [MaskRCNN] INFO : [#0005] block_1a_bn_1/gamma:0 [MaskRCNN] INFO : [#0006] block_1a_bn_1/beta:0 [MaskRCNN] INFO : [#0007] block_1a_conv_2/kernel:0 [MaskRCNN] INFO : [#0008] block_1a_bn_2/gamma:0 [MaskRCNN] INFO : [#0009] block_1a_bn_2/beta:0 [MaskRCNN] INFO : [#0010] block_1a_conv_3/kernel:0 [MaskRCNN] INFO : [#0011] block_1a_bn_3/gamma:0 [MaskRCNN] INFO : [#0012] block_1a_bn_3/beta:0 [MaskRCNN] INFO : [#0013] block_1a_conv_shortcut/kernel:0 [MaskRCNN] INFO : [#0014] block_1a_bn_shortcut/gamma:0 [MaskRCNN] INFO : [#0015] block_1a_bn_shortcut/beta:0 [MaskRCNN] INFO : [#0016] block_1b_conv_1/kernel:0 [MaskRCNN] INFO : [#0017] block_1b_bn_1/gamma:0 [MaskRCNN] INFO : [#0018] block_1b_bn_1/beta:0 [MaskRCNN] INFO : [#0019] block_1b_conv_2/kernel:0 [MaskRCNN] INFO : [#0020] block_1b_bn_2/gamma:0 [MaskRCNN] INFO : [#0021] block_1b_bn_2/beta:0 [MaskRCNN] INFO : [#0022] block_1b_conv_3/kernel:0 [MaskRCNN] INFO : [#0023] block_1b_bn_3/gamma:0 [MaskRCNN] INFO : [#0024] block_1b_bn_3/beta:0 [MaskRCNN] INFO : [#0025] block_1c_conv_1/kernel:0 [MaskRCNN] INFO : [#0026] block_1c_bn_1/gamma:0 [MaskRCNN] INFO : [#0027] block_1c_bn_1/beta:0 [MaskRCNN] INFO : [#0028] block_1c_conv_2/kernel:0 [MaskRCNN] INFO : [#0029] block_1c_bn_2/gamma:0 [MaskRCNN] INFO : [#0030] block_1c_bn_2/beta:0 [MaskRCNN] INFO : [#0031] block_1c_conv_3/kernel:0 [MaskRCNN] INFO : [#0032] block_1c_bn_3/gamma:0 [MaskRCNN] INFO : [#0033] block_1c_bn_3/beta:0 [MaskRCNN] INFO : [#0034] block_2a_conv_1/kernel:0 [MaskRCNN] INFO : [#0035] block_2a_bn_1/gamma:0 [MaskRCNN] INFO : [#0036] block_2a_bn_1/beta:0 [MaskRCNN] INFO : [#0037] block_2a_conv_2/kernel:0 [MaskRCNN] INFO : [#0038] block_2a_bn_2/gamma:0 [MaskRCNN] INFO : [#0039] block_2a_bn_2/beta:0 [MaskRCNN] INFO : [#0040] block_2a_conv_3/kernel:0 [MaskRCNN] INFO : [#0041] block_2a_bn_3/gamma:0 [MaskRCNN] INFO : [#0042] block_2a_bn_3/beta:0 [MaskRCNN] INFO : [#0043] block_2a_conv_shortcut/kernel:0 [MaskRCNN] INFO : [#0044] block_2a_bn_shortcut/gamma:0 [MaskRCNN] INFO : [#0045] block_2a_bn_shortcut/beta:0 [MaskRCNN] INFO : [#0046] block_2b_conv_1/kernel:0 [MaskRCNN] INFO : [#0047] block_2b_bn_1/gamma:0 [MaskRCNN] INFO : [#0048] block_2b_bn_1/beta:0 [MaskRCNN] INFO : [#0049] block_2b_conv_2/kernel:0 [MaskRCNN] INFO : [#0050] block_2b_bn_2/gamma:0 [MaskRCNN] INFO : [#0051] block_2b_bn_2/beta:0 [MaskRCNN] INFO : [#0052] block_2b_conv_3/kernel:0 [MaskRCNN] INFO : [#0053] block_2b_bn_3/gamma:0 [MaskRCNN] INFO : [#0054] block_2b_bn_3/beta:0 [MaskRCNN] INFO : [#0055] block_2c_conv_1/kernel:0 [MaskRCNN] INFO : [#0056] block_2c_bn_1/gamma:0 [MaskRCNN] INFO : [#0057] block_2c_bn_1/beta:0 [MaskRCNN] INFO : [#0058] block_2c_conv_2/kernel:0 [MaskRCNN] INFO : [#0059] block_2c_bn_2/gamma:0 [MaskRCNN] INFO : [#0060] block_2c_bn_2/beta:0 [MaskRCNN] INFO : [#0061] block_2c_conv_3/kernel:0 [MaskRCNN] INFO : [#0062] block_2c_bn_3/gamma:0 [MaskRCNN] INFO : [#0063] block_2c_bn_3/beta:0 [MaskRCNN] INFO : [#0064] block_2d_conv_1/kernel:0 [MaskRCNN] INFO : [#0065] block_2d_bn_1/gamma:0 [MaskRCNN] INFO : [#0066] block_2d_bn_1/beta:0 [MaskRCNN] INFO : [#0067] block_2d_conv_2/kernel:0 [MaskRCNN] INFO : [#0068] block_2d_bn_2/gamma:0 [MaskRCNN] INFO : [#0069] block_2d_bn_2/beta:0 [MaskRCNN] INFO : [#0070] block_2d_conv_3/kernel:0 [MaskRCNN] INFO : [#0071] block_2d_bn_3/gamma:0 [MaskRCNN] INFO : [#0072] block_2d_bn_3/beta:0 [MaskRCNN] INFO : [#0073] block_3a_conv_1/kernel:0 [MaskRCNN] INFO : [#0074] block_3a_bn_1/gamma:0 [MaskRCNN] INFO : [#0075] block_3a_bn_1/beta:0 [MaskRCNN] INFO : [#0076] block_3a_conv_2/kernel:0 [MaskRCNN] INFO : [#0077] block_3a_bn_2/gamma:0 [MaskRCNN] INFO : [#0078] block_3a_bn_2/beta:0 [MaskRCNN] INFO : [#0079] block_3a_conv_3/kernel:0 [MaskRCNN] INFO : [#0080] block_3a_bn_3/gamma:0 [MaskRCNN] INFO : [#0081] block_3a_bn_3/beta:0 [MaskRCNN] INFO : [#0082] block_3a_conv_shortcut/kernel:0 [MaskRCNN] INFO : [#0083] block_3a_bn_shortcut/gamma:0 [MaskRCNN] INFO : [#0084] block_3a_bn_shortcut/beta:0 [MaskRCNN] INFO : [#0085] block_3b_conv_1/kernel:0 [MaskRCNN] INFO : [#0086] block_3b_bn_1/gamma:0 [MaskRCNN] INFO : [#0087] block_3b_bn_1/beta:0 [MaskRCNN] INFO : [#0088] block_3b_conv_2/kernel:0 [MaskRCNN] INFO : [#0089] block_3b_bn_2/gamma:0 [MaskRCNN] INFO : [#0090] block_3b_bn_2/beta:0 [MaskRCNN] INFO : [#0091] block_3b_conv_3/kernel:0 [MaskRCNN] INFO : [#0092] block_3b_bn_3/gamma:0 [MaskRCNN] INFO : [#0093] block_3b_bn_3/beta:0 [MaskRCNN] INFO : [#0094] block_3c_conv_1/kernel:0 [MaskRCNN] INFO : [#0095] block_3c_bn_1/gamma:0 [MaskRCNN] INFO : [#0096] block_3c_bn_1/beta:0 [MaskRCNN] INFO : [#0097] block_3c_conv_2/kernel:0 [MaskRCNN] INFO : [#0098] block_3c_bn_2/gamma:0 [MaskRCNN] INFO : [#0099] block_3c_bn_2/beta:0 [MaskRCNN] INFO : [#0100] block_3c_conv_3/kernel:0 [MaskRCNN] INFO : [#0101] block_3c_bn_3/gamma:0 [MaskRCNN] INFO : [#0102] block_3c_bn_3/beta:0 [MaskRCNN] INFO : [#0103] block_3d_conv_1/kernel:0 [MaskRCNN] INFO : [#0104] block_3d_bn_1/gamma:0 [MaskRCNN] INFO : [#0105] block_3d_bn_1/beta:0 [MaskRCNN] INFO : [#0106] block_3d_conv_2/kernel:0 [MaskRCNN] INFO : [#0107] block_3d_bn_2/gamma:0 [MaskRCNN] INFO : [#0108] block_3d_bn_2/beta:0 [MaskRCNN] INFO : [#0109] block_3d_conv_3/kernel:0 [MaskRCNN] INFO : [#0110] block_3d_bn_3/gamma:0 [MaskRCNN] INFO : [#0111] block_3d_bn_3/beta:0 [MaskRCNN] INFO : [#0112] block_3e_conv_1/kernel:0 [MaskRCNN] INFO : [#0113] block_3e_bn_1/gamma:0 [MaskRCNN] INFO : [#0114] block_3e_bn_1/beta:0 [MaskRCNN] INFO : [#0115] block_3e_conv_2/kernel:0 [MaskRCNN] INFO : [#0116] block_3e_bn_2/gamma:0 [MaskRCNN] INFO : [#0117] block_3e_bn_2/beta:0 [MaskRCNN] INFO : [#0118] block_3e_conv_3/kernel:0 [MaskRCNN] INFO : [#0119] block_3e_bn_3/gamma:0 [MaskRCNN] INFO : [#0120] block_3e_bn_3/beta:0 [MaskRCNN] INFO : [#0121] block_3f_conv_1/kernel:0 [MaskRCNN] INFO : [#0122] block_3f_bn_1/gamma:0 [MaskRCNN] INFO : [#0123] block_3f_bn_1/beta:0 [MaskRCNN] INFO : [#0124] block_3f_conv_2/kernel:0 [MaskRCNN] INFO : [#0125] block_3f_bn_2/gamma:0 [MaskRCNN] INFO : [#0126] block_3f_bn_2/beta:0 [MaskRCNN] INFO : [#0127] block_3f_conv_3/kernel:0 [MaskRCNN] INFO : [#0128] block_3f_bn_3/gamma:0 [MaskRCNN] INFO : [#0129] block_3f_bn_3/beta:0 [MaskRCNN] INFO : [#0130] block_4a_conv_1/kernel:0 [MaskRCNN] INFO : [#0131] block_4a_bn_1/gamma:0 [MaskRCNN] INFO : [#0132] block_4a_bn_1/beta:0 [MaskRCNN] INFO : [#0133] block_4a_conv_2/kernel:0 [MaskRCNN] INFO : [#0134] block_4a_bn_2/gamma:0 [MaskRCNN] INFO : [#0135] block_4a_bn_2/beta:0 [MaskRCNN] INFO : [#0136] block_4a_conv_3/kernel:0 [MaskRCNN] INFO : [#0137] block_4a_bn_3/gamma:0 [MaskRCNN] INFO : [#0138] block_4a_bn_3/beta:0 [MaskRCNN] INFO : [#0139] block_4a_conv_shortcut/kernel:0 [MaskRCNN] INFO : [#0140] block_4a_bn_shortcut/gamma:0 [MaskRCNN] INFO : [#0141] block_4a_bn_shortcut/beta:0 [MaskRCNN] INFO : [#0142] block_4b_conv_1/kernel:0 [MaskRCNN] INFO : [#0143] block_4b_bn_1/gamma:0 [MaskRCNN] INFO : [#0144] block_4b_bn_1/beta:0 [MaskRCNN] INFO : [#0145] block_4b_conv_2/kernel:0 [MaskRCNN] INFO : [#0146] block_4b_bn_2/gamma:0 [MaskRCNN] INFO : [#0147] block_4b_bn_2/beta:0 [MaskRCNN] INFO : [#0148] block_4b_conv_3/kernel:0 [MaskRCNN] INFO : [#0149] block_4b_bn_3/gamma:0 [MaskRCNN] INFO : [#0150] block_4b_bn_3/beta:0 [MaskRCNN] INFO : [#0151] block_4c_conv_1/kernel:0 [MaskRCNN] INFO : [#0152] block_4c_bn_1/gamma:0 [MaskRCNN] INFO : [#0153] block_4c_bn_1/beta:0 [MaskRCNN] INFO : [#0154] block_4c_conv_2/kernel:0 [MaskRCNN] INFO : [#0155] block_4c_bn_2/gamma:0 [MaskRCNN] INFO : [#0156] block_4c_bn_2/beta:0 [MaskRCNN] INFO : [#0157] block_4c_conv_3/kernel:0 [MaskRCNN] INFO : [#0158] block_4c_bn_3/gamma:0 [MaskRCNN] INFO : [#0159] block_4c_bn_3/beta:0 [MaskRCNN] INFO : [#0160] l2/kernel:0 [MaskRCNN] INFO : [#0161] l2/bias:0 [MaskRCNN] INFO : [#0162] l3/kernel:0 [MaskRCNN] INFO : [#0163] l3/bias:0 [MaskRCNN] INFO : [#0164] l4/kernel:0 [MaskRCNN] INFO : [#0165] l4/bias:0 [MaskRCNN] INFO : [#0166] l5/kernel:0 [MaskRCNN] INFO : [#0167] l5/bias:0 [MaskRCNN] INFO : [#0168] post_hoc_d2/kernel:0 [MaskRCNN] INFO : [#0169] post_hoc_d2/bias:0 [MaskRCNN] INFO : [#0170] post_hoc_d3/kernel:0 [MaskRCNN] INFO : [#0171] post_hoc_d3/bias:0 [MaskRCNN] INFO : [#0172] post_hoc_d4/kernel:0 [MaskRCNN] INFO : [#0173] post_hoc_d4/bias:0 [MaskRCNN] INFO : [#0174] post_hoc_d5/kernel:0 [MaskRCNN] INFO : [#0175] post_hoc_d5/bias:0 [MaskRCNN] INFO : [#0176] rpn/kernel:0 [MaskRCNN] INFO : [#0177] rpn/bias:0 [MaskRCNN] INFO : [#0178] rpn-class/kernel:0 [MaskRCNN] INFO : [#0179] rpn-class/bias:0 [MaskRCNN] INFO : [#0180] rpn-box/kernel:0 [MaskRCNN] INFO : [#0181] rpn-box/bias:0 [MaskRCNN] INFO : [#0182] fc6/kernel:0 [MaskRCNN] INFO : [#0183] fc6/bias:0 [MaskRCNN] INFO : [#0184] fc7/kernel:0 [MaskRCNN] INFO : [#0185] fc7/bias:0 [MaskRCNN] INFO : [#0186] class-predict/kernel:0 [MaskRCNN] INFO : [#0187] class-predict/bias:0 [MaskRCNN] INFO : [#0188] box-predict/kernel:0 [MaskRCNN] INFO : [#0189] box-predict/bias:0 [MaskRCNN] INFO : [#0190] mask-conv-l0/kernel:0 [MaskRCNN] INFO : [#0191] mask-conv-l0/bias:0 [MaskRCNN] INFO : [#0192] mask-conv-l1/kernel:0 [MaskRCNN] INFO : [#0193] mask-conv-l1/bias:0 [MaskRCNN] INFO : [#0194] mask-conv-l2/kernel:0 [MaskRCNN] INFO : [#0195] mask-conv-l2/bias:0 [MaskRCNN] INFO : [#0196] mask-conv-l3/kernel:0 [MaskRCNN] INFO : [#0197] mask-conv-l3/bias:0 [MaskRCNN] INFO : [#0198] conv5-mask/kernel:0 [MaskRCNN] INFO : [#0199] conv5-mask/bias:0 [MaskRCNN] INFO : [#0200] mask_fcn_logits/kernel:0 [MaskRCNN] INFO : [#0201] mask_fcn_logits/bias:0 [MaskRCNN] INFO : %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% ===========
=> (7, 7, 3, 64)
=> (64,)
=> (64,)
=> (1, 1, 64, 64)
=> (64,)
=> (64,)
=> (3, 3, 64, 64)
=> (64,)
=> (64,)
=> (1, 1, 64, 256)
=> (256,)
=> (256,)
=> (1, 1, 64, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 64)
=> (64,)
=> (64,)
=> (3, 3, 64, 64)
=> (64,)
=> (64,)
=> (1, 1, 64, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 64)
=> (64,)
=> (64,)
=> (3, 3, 64, 64)
=> (64,)
=> (64,)
=> (1, 1, 64, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 128)
=> (128,)
=> (128,)
=> (3, 3, 128, 128)
=> (128,)
=> (128,)
=> (1, 1, 128, 512)
=> (512,)
=> (512,)
=> (1, 1, 256, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 128)
=> (128,)
=> (128,)
=> (3, 3, 128, 128)
=> (128,)
=> (128,)
=> (1, 1, 128, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 128)
=> (128,)
=> (128,)
=> (3, 3, 128, 128)
=> (128,)
=> (128,)
=> (1, 1, 128, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 128)
=> (128,)
=> (128,)
=> (3, 3, 128, 128)
=> (128,)
=> (128,)
=> (1, 1, 128, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 256)
=> (256,)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 512, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 1024, 256)
=> (256,)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 1024, 256)
=> (256,)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 1024, 256)
=> (256,)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 1024, 256)
=> (256,)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 1024, 256)
=> (256,)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (256,)
=> (1, 1, 256, 1024)
=> (1024,)
=> (1024,)
=> (1, 1, 1024, 512)
=> (512,)
=> (512,)
=> (3, 3, 512, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 2048)
=> (2048,)
=> (2048,)
=> (1, 1, 1024, 2048)
=> (2048,)
=> (2048,)
=> (1, 1, 2048, 512)
=> (512,)
=> (512,)
=> (3, 3, 512, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 2048)
=> (2048,)
=> (2048,)
=> (1, 1, 2048, 512)
=> (512,)
=> (512,)
=> (3, 3, 512, 512)
=> (512,)
=> (512,)
=> (1, 1, 512, 2048)
=> (2048,)
=> (2048,)
=> (1, 1, 256, 256)
=> (256,)
=> (1, 1, 512, 256)
=> (256,)
=> (1, 1, 1024, 256)
=> (256,)
=> (1, 1, 2048, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (1, 1, 256, 3)
=> (3,)
=> (1, 1, 256, 12)
=> (12,)
=> (12544, 1024)
=> (1024,)
=> (1024, 1024)
=> (1024,)
=> (1024, 2)
=> (2,)
=> (1024, 8)
=> (8,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (3, 3, 256, 256)
=> (256,)
=> (2, 2, 256, 256)
=> (256,)
=> (1, 1, 256, 2)
=> (2,)
%%%%%%%%%%

[MaskRCNN] INFO : # ============================================= #
[MaskRCNN] INFO : Start Training
[MaskRCNN] INFO : # %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% #

[GPU 00] Restoring pretrained weights (265 Tensors)
[MaskRCNN] INFO : Pretrained weights loaded with success…

[MaskRCNN] INFO : Saving checkpoints for 0 into /workspace/tao-experiments/mask_rcnn/experiment_dir_unpruned/model.step-0.tlt.

Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.

mpirun.real noticed that process rank 1 with PID 0 on node 41afb24bd50e exited on signal 9 (Killed).

2022-01-27 09:04:07,841 [INFO] tlt.components.docker_handler.docker_handler: Stopping container.

Morganh · January 27, 2022, 7:56am

Can you use a new result folder and retry?

user95285 · January 27, 2022, 8:02am

Hi, yah I deleted the result folder $USER_EXPERIMENT_DIR/experiment_dir_unpruned and recreating the folder using !mkdir -p $LOCAL_EXPERIMENT_DIR/experiment_dir_unpruned
but the issue still persists. It creates model.step-0.tlt and saves it then the job gets terminated without any warning or error

Morganh · January 27, 2022, 8:08am

Can you share the training spec?

user95285 · January 27, 2022, 8:10am

This is maskrcnn_train_resnet50.txt:

seed: 123
use_amp: False
warmup_steps: 1000
checkpoint: “/workspace/tao-experiments/mask_rcnn/pretrained_resnet50/pretrained_instance_segmentation_vresnet50/resnet50.hdf5”
learning_rate_steps: “[120000, 160000]”
learning_rate_decay_levels: “[0.1, 0.01]”
total_steps: 280000
train_batch_size: 2
eval_batch_size: 4
num_steps_per_eval: 5000
momentum: 0.9
l2_weight_decay: 0.0001
warmup_learning_rate: 0.0001
init_learning_rate: 0.01

data_config{
image_size: “(832, 1344)”
augment_input_data: True
eval_samples: 500
training_file_pattern: “/workspace/tao-experiments/data/coco_train*.tfrecord”
validation_file_pattern: “/workspace/tao-experiments/data/coco_val*.tfrecord”
val_json_file: “/workspace/tao-experiments/data/annotations/val.json”

# dataset specific parameters
num_classes: 2
skip_crowd_during_training: True

}

maskrcnn_config {
nlayers: 50
arch: “resnet”
freeze_bn: True
freeze_blocks: “[0,1]”
gt_mask_size: 112

# Region Proposal Network
rpn_positive_overlap: 0.7
rpn_negative_overlap: 0.3
rpn_batch_size_per_im: 256
rpn_fg_fraction: 0.5
rpn_min_size: 0.

# Proposal layer.
batch_size_per_im: 512
fg_fraction: 0.25
fg_thresh: 0.5
bg_thresh_hi: 0.5
bg_thresh_lo: 0.

# Faster-RCNN heads.
fast_rcnn_mlp_head_dim: 1024
bbox_reg_weights: "(10., 10., 5., 5.)"

# Mask-RCNN heads.
include_mask: True
mrcnn_resolution: 28

# training
train_rpn_pre_nms_topn: 2000
train_rpn_post_nms_topn: 1000
train_rpn_nms_threshold: 0.7

# evaluation
test_detections_per_image: 100
test_nms: 0.5
test_rpn_pre_nms_topn: 1000
test_rpn_post_nms_topn: 1000
test_rpn_nms_thresh: 0.7

# model architecture
min_level: 2
max_level: 6
num_scales: 1
aspect_ratios: "[(1.0, 1.0), (1.4, 0.7), (0.7, 1.4)]"
anchor_scale: 8

# localization loss
rpn_box_loss_weight: 1.0
fast_rcnn_box_loss_weight: 1.0
mrcnn_weight_loss_mask: 1.0

}

Morganh · January 27, 2022, 8:16am

Can you use only one of the tfrecord files and retry?

user95285 · January 27, 2022, 8:18am

From what I understood you want me to train on only one tfrecord and see what happens right? I’ll try that

Morganh · January 27, 2022, 8:20am

Yes, please try to train with less dataset.

user95285 · January 27, 2022, 8:51am

Hi sorry I took a long time. So let me give some context, I created tfrecords before using the create_coco_tf_record.py that comes with the notebook, but the problem was that it needed captions, so I created dummy captions and it worked but then I could not complete training like you see above. I created new tfrecord using (https://github.com/tensorflow/models/blob/master/research/object_detection/dataset_tools/create_coco_tf_record.py) but now I get this error bellow. This was run using only one tfrecord just like you asked. (This would not have happened before using the old tfrecords, before it would just stop)

[MaskRCNN] INFO : # ============================================= #
[MaskRCNN] INFO : Start Training
[MaskRCNN] INFO : # %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% #

[GPU 00] Restoring pretrained weights (265 Tensors)
[MaskRCNN] INFO : Pretrained weights loaded with success…

[MaskRCNN] INFO : Saving checkpoints for 0 into /workspace/tao-experiments/mask_rcnn/experiment_dir_unpruned/model.step-0.tlt.

[MaskRCNN] INFO : # @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ #
[MaskRCNN] INFO : Training Performance Summary
[MaskRCNN] INFO : # @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ #
DLL 2022-01-27 08:44:52.519272 - : # @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ #
DLL 2022-01-27 08:44:52.519369 - : Training Performance Summary
DLL 2022-01-27 08:44:52.519401 - : # @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ #

Traceback (most recent call last):
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1365, in _do_call
return fn(*args)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1350, in _run_fn
target_list, run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1443, in _call_tf_sessionrun
run_metadata)
tensorflow.python.framework.errors_impl.InvalidArgumentError: 2 root error(s) found.
(0) Invalid argument: {{function_node __inference_Dataset_map__map_func_set_random_wrapper_15647}} Requested more than 0 entries, but params is empty. Params shape: [0,1]
[[{{node parser/process_boxes_classes_indices_for_training/GatherNd}}]]
[[IteratorGetNext]]
[[MLP/multilevel_propose_rois/level_4/combined_non_max_suppression/CombinedNonMaxSuppression/_5741]]
(1) Invalid argument: {{function_node __inference_Dataset_map__map_func_set_random_wrapper_15647}} Requested more than 0 entries, but params is empty. Params shape: [0,1]
[[{{node parser/process_boxes_classes_indices_for_training/GatherNd}}]]
[[IteratorGetNext]]
0 successful operations.
0 derived errors ignored.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File “/root/.cache/bazel/_bazel_root/ed34e6d125608f91724fda23656f1726/execroot/ai_infra/bazel-out/k8-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/mask_rcnn/scripts/train.py”, line 222, in
File “/root/.cache/bazel/_bazel_root/ed34e6d125608f91724fda23656f1726/execroot/ai_infra/bazel-out/k8-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/mask_rcnn/scripts/train.py”, line 218, in main
File “/root/.cache/bazel/_bazel_root/ed34e6d125608f91724fda23656f1726/execroot/ai_infra/bazel-out/k8-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/mask_rcnn/scripts/train.py”, line 85, in run_executer
File “/root/.cache/bazel/_bazel_root/ed34e6d125608f91724fda23656f1726/execroot/ai_infra/bazel-out/k8-fastbuild/bin/magnet/packages/iva/build_wheel.runfiles/ai_infra/iva/mask_rcnn/executer/distributed_executer.py”, line 399, in train_and_eval
File “/usr/local/lib/python3.6/dist-packages/tensorflow_estimator/python/estimator/estimator.py”, line 370, in train
loss = self._train_model(input_fn, hooks, saving_listeners)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_estimator/python/estimator/estimator.py”, line 1161, in _train_model
return self._train_model_default(input_fn, hooks, saving_listeners)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_estimator/python/estimator/estimator.py”, line 1195, in _train_model_default
saving_listeners)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_estimator/python/estimator/estimator.py”, line 1494, in _train_with_estimator_spec
_, loss = mon_sess.run([estimator_spec.train_op, estimator_spec.loss])
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 754, in run
run_metadata=run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1259, in run
run_metadata=run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1360, in run
raise six.reraise(*original_exc_info)
File “/usr/local/lib/python3.6/dist-packages/six.py”, line 696, in reraise
raise value
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1345, in run
return self._sess.run(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1418, in run
run_metadata=run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/training/monitored_session.py”, line 1176, in run
return self._sess.run(*args, **kwargs)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 956, in run
run_metadata_ptr)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1180, in _run
feed_dict_tensor, options, run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1359, in _do_run
run_metadata)
File “/usr/local/lib/python3.6/dist-packages/tensorflow_core/python/client/session.py”, line 1384, in _do_call
raise type(e)(node_def, op, message)
tensorflow.python.framework.errors_impl.InvalidArgumentError: 2 root error(s) found.
(0) Invalid argument: Requested more than 0 entries, but params is empty. Params shape: [0,1]
[[{{node parser/process_boxes_classes_indices_for_training/GatherNd}}]]
[[IteratorGetNext]]
[[MLP/multilevel_propose_rois/level_4/combined_non_max_suppression/CombinedNonMaxSuppression/_5741]]
(1) Invalid argument: Requested more than 0 entries, but params is empty. Params shape: [0,1]
[[{{node parser/process_boxes_classes_indices_for_training/GatherNd}}]]
[[IteratorGetNext]]
0 successful operations.
0 derived errors ignored.
[MaskRCNN] ERROR : Job finished with an uncaught exception: FAILURE
DLL 2022-01-27 08:44:52.519438 - Average_throughput : -1.0 samples/sec
DLL 2022-01-27 08:44:52.519463 - Total processed steps : 1
DLL 2022-01-27 08:44:52.519489 - Total_processing_time : 0h 00m 00s
[MaskRCNN] INFO : Average throughput: -1.0 samples/sec
[MaskRCNN] INFO : Total processed steps: 1
[MaskRCNN] INFO : Total processing time: 0h 00m 00s
DLL 2022-01-27 08:44:52.519710 - : ==================== Metrics ====================
[MaskRCNN] INFO : ==================== Metrics ====================

Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.

mpirun.real detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:

Process name: [[9996,1],0]
Exit code: 1

2022-01-27 11:44:59,697 [INFO] tlt.components.docker_handler.docker_handler: Stopping container.

user95285 · January 27, 2022, 9:11am

@Morganh I’ll recreate the old tfrecords to recreate the original problem and try it with one tfrecord. give me 10 mins. I’m not sure why though the tfrecords I created with models/create_coco_tf_record.py at master · tensorflow/models · GitHub dont’t work.

user95285 · January 27, 2022, 11:51am

@Morganh So I tried it with the old tfrecords, the training starts but then the training loss gets bigger and bigger over time until it diverges and becomes NAN.

So to summarize the issues I got trying different things:
1- when I try generating the tfrecords with models/create_coco_tf_record.py at master · tensorflow/models · GitHub I get " Requested more than 0 entries, but params is empty. Params shape: [0,1]" (The traceback above)

2- when I try with the tfrecords that require captions so I use dummy captions, the training starts and then as time goes on it gets bigger and bigger until it divereges and becomes NAN. (I tried reducing the learning rate)

Any Ideas why this is happening?
Thanks

Morganh · January 27, 2022, 1:34pm

Firstly, please use the create_coco_tf_record.py inside the spec folder of cv_samples_v1.3.0 files. Download them from TAO Toolkit Quick Start Guide - NVIDIA Docs

As mentioned in the jupyter notebook, iIf your data doesn’t have caption groundtruth or test set, you can modify download_and_preprocess_coco.sh and create_coco_tf_record.py by commenting out corresponding variables.

More, seems that you are running with 2gpus, please run with at least two tfrecord files.

And could you refer to Train mask-rcnn failure - #5 by gao-yan ?
That user solved the issue since

Some objects in the images only have bbox without segmentation, so I remove these objects and generate the dataset again.

system · February 22, 2022, 1:31am

This topic was automatically closed 14 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Requested more than 0 entries, but params is empty. Params shape: [0,1920,1080] TAO Toolkit	23	2106	March 1, 2022
Mask-RCCNN fails on custom dataset TAO Toolkit tensorflow	4	1184	March 4, 2023
Mask R-CNN hangs during training using custom made tfrecords TAO Toolkit	31	3740	October 12, 2021
Train mask-rcnn failure TAO Toolkit tao	16	1377	November 25, 2021
MaskRCNN Input to reshape is a tensor with 3135248 values, but the requested shape has 2691200 TAO Toolkit	38	1536	May 9, 2023
Training problems with the TAO toolkit using Mask R-CNN TAO Toolkit	7	979	November 22, 2022
ValueError: Total size of new array must be unchanged for box_head/class-predict/kernel lh_shape: [(1024, 1)], rh_shape: [(1024, 2)] TAO Toolkit	7	1065	October 12, 2021
Mask_rcnn shows training logs loss 0.00000 fast_rcnn class loss: 0.00000 fast_rcnn box loss: 0.00000 TAO Toolkit	22	1074	August 16, 2022
Permission denied: 'mrcnn_log.json' while converting data into tfrecords TAO Toolkit	9	1019	August 16, 2022
Convert custom dataset using nvidia tao TAO Toolkit tao	2	496	June 14, 2023

Mask R-CNN stops abruptly while training using custom coco dataset

[MaskRCNN] INFO : Saving checkpoints for 0 into /workspace/tao-experiments/mask_rcnn/experiment_dir_unpruned/model.step-0.tlt.

Primary job terminated normally, but 1 process returned a non-zero exit code. Per user-direction, the job has been aborted.

mpirun.real noticed that process rank 1 with PID 0 on node 41afb24bd50e exited on signal 9 (Killed).

Primary job terminated normally, but 1 process returned a non-zero exit code. Per user-direction, the job has been aborted.

Process name: [[9996,1],0] Exit code: 1

Related topics

Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.

Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.

Process name: [[9996,1],0]
Exit code: 1