嗨,
我已经训练了模型并对其执行了tlt-prune操作,但是当我重新训练时,我遇到了一些问题。
这是我的日志:
使用TensorFlow后端。
2019-12-17 07:05:33.756084:I tensorflow / core / platform / cpu_feature_guard.cc:141]您的CPU支持该TensorFlow二进制文件未编译为使用的指令:AVX2 FMA
2019-12-17 07:05:33.869241 :我tensorflow / stream_executor / cuda / cuda_gpu_executor.cc:998]从SysFS读取的成功NUMA节点具有负值(-1),但必须至少有一个NUMA节点,因此返回NUMA节点为零
2019-12-17 07: 05:33.869983:我tensorflow / compiler / xla / service / service.cc:150] XLA服务0x5770bd0在平台CUDA上执行计算。设备:
2019-12-17 07:05:33.870031:I tensorflow / compiler / xla / service / service.cc:158] StreamExecutor设备(0):Tesla P4,计算能力6.1
2019-12-17 07:05:33.872881:I tensorflow / core / platform / profile_utils / cpu_utils.cc:94] CPU频率:2494220000 Hz
2019-12-17 07:05:33.873331:我tensorflow / compiler / xla / service / service.cc:150] XLA服务0x57d8a80执行计算在平台主机上。设备:
2019-12-17 07:05:33.873376:I tensorflow / compiler / xla / service / service.cc:158] StreamExecutor设备(0):<未定义>,<未定义>
2019-12-17 07:05: 33.873574:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1433]找到了具有属性的设备0:
名称:Tesla P4 major:6 minor:1 memoryClockRate(GHz):1.1135
pciBusID:0000:00:07.0
totalMemory:7.43GiB
空闲内存:5.97GiB 2019-12-17 07:05:33.873610:I tensorflow / core / common_runtime / gpu / gpu_device.cc:1512]添加可见的gpu设备:0
2019-12-17 07:05:33.874461 :我tensorflow / core / common_runtime / gpu / gpu_device.cc:984]具有强度1边缘矩阵的设备互连StreamExecutor:
2019-12-17 07:05:33.874496:我tensorflow / core / common_runtime / gpu / gpu_device.cc:990 ] 0
2019-12-17 07:05:33.874515:我tensorflow / core / common_runtime / gpu / gpu_device.cc:1003] 0:N
2019-12-17 07:05:33.874637:我tensorflow / core / common_runtime / gpu /gpu_device.cc:1115]创建TensorFlow设备(/ job:localhost /副本:0 / task:0 / device:GPU:0,具有5812 MB内存)->物理GPU(设备:0,名称:Tesla P4,pci总线id:0000:00:07.0,计算能力:6.1)
2019-12-17 07:05:33,876 [INFO] iva.detectnet_v2.scripts.train:在retrain_hat_person.txt加载实验规范。
2019-12-17 07:05:33,877 [INFO] iva.detectnet_v2.spec_handler.spec_loader:合并retrain_hat_person.txt中的规范
警告:tensorflow:来自./detectnet_v2/dataloader/utilities.py:114:tf_record_iterator(来自tensorflow.python (.lib.io.tf_record)已过时,并将在以后的版本中删除。
更新说明:
使用急切的执行和:
tf.data.TFRecordDataset(path)`
2019-12-17 07:05:33,884 [警告]张量流:来自./detectnet_v2/dataloader/utilities.py:114:tf_record_iterator(来自tensorflow.python.lib.io.tf_record)已过时,并将在以后的版本中删除。
更新说明:
使用急切的执行和:
tf.data.TFRecordDataset(path)
警告:tensorflow:从/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/op_def_library.py:263:colocate_with(from tensorflow.python.framework.ops)已过时,并将在以后的版本中删除。
更新说明:
托管服务器自动处理的托管。
2019-12-17 07:05:34,012 [警告] tensorflow:来自/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/op_def_library.py:263:colocate_with(来自tensorflow.python。 framework.ops)已弃用,并将在以后的版本中删除。
更新说明:
托管服务器自动处理的托管。
警告:tensorflow:来自/usr/local/lib/python2.7/dist-packages/horovod/tensorflow/init.py:91:div(来自tensorflow.python.ops.math_ops)已弃用,以后将被删除版。
更新说明:
不推荐使用operator或tf.math.divide。
2019-12-17 07:05:34,028 [警告] tensorflow:来自/usr/local/lib/python2.7/dist-packages/horovod/tensorflow/init.py:91:div(来自tensorflow.python.ops。 math_ops)已弃用,并将在以后的版本中删除。
更新说明:
不推荐使用operator或tf.math.divide。
/usr/local/lib/python2.7/dist-packages/keras/engine/saving.py:292:UserWarning:在保存文件中找不到训练配置:未编译模型。手动编译。
warnings.warn(‘在保存文件中未找到训练配置:’
图层(类型)输出形状参数#连接到
======================= ================================================== =======================
input_1(InputLayer)(无, 3,640,649 )0
conv1(Conv2D)(无,64,320,325 )9472 input_1 [0] [0]
bn_conv1(批量标准化)(无,64,320,325)256 conv1 [0] [0]
activation_1(激活)(无,64、320、325)0 bn_conv1 [0] [0]
block_1a_cond_1(Con无,64、160、163)36928 Activation_1 [0] [0]
block_1a_bn_1(BatchNormalizati(无,64,160,163)256 block_1a_conv_1 [0] [0]
Activation_2(激活)(无,64、160、163)0 block_1a_bn_1 [0] [0]
block_1a_conv_2(Conv2 64、160、163)36928 Activation_2 [0] [0]
block_1a_conv_shortcut(Conv2D)(无,64、160、163)4160 activation_1 [0] [0]
block_1a_bn_2(BatchNormalizati(无,64,160,163)256 block_1a_conv_2 [0] [0]
block_1a_bn_shortcut(BatchNorm(无,64,160,163)
(添加)(0)[0] [0] [0] [0] [0] [0] [0] [0] 64、160、163)0 block_1a_bn_2 [0] [0]
block_1a_bn_shortcut [0] [0]
activation_3(活化)(无,64,160,163)0 add_1 [0] [0]
block_1b_conv_1(Conv2D)(无,64,160,163)36928 activation_3 [0] [0]
block_1b_bn_1(BatchNormalizati(无,64,160,163)256 block_1b_conv_1 [0] [0]
activation_4(激活)(无,64、160、163)0 block_1b_bn_1 [0] [0]
block_1b_conv_2(Conv2D)(无,64、160、163)36928 activation_4 [0] [0]
block_1b_bn_2(BatchNormalizati( 64、160、163)256 block_1b_conv_2 [0] [0]
add_2(添加)(无,64、160、163)0 block_1b_bn_2 [0] [0]
activation_3 [0] [0]
activation_5(激活)(无,64、160、163)0 add_2 [0] [0]
block_2a_conv_1(Conv2D)(无,128、80、82)73856 activation_5 [0] [0] [0] [0] ]
block_2a_bn_1(BatchNormalizati(无,128、80、82)512 block_2a_conv_1 [0] [0]
激活_6(激活)(无,128,80,82)0块_2a_bn_1 [0] [0]
块_2a_conv_2(Conv2D)(无,128,80,82)147584激活_6 [0] [0]
块_2a_convD()无,128、80、82)8320 activation_5 [0] [0]
block_2a_bn_2(BatchNormalizati(无,128,80,82)512 block_2a_conv_2 [0] [0]
block_2a_bn_shortcut(BatchNorm(无,128,80,82)512 block_2a_conv_shortcut [0] [0]
(1 ,80,82)0 block_2a_bn_2 [0] [0]
block_2a_bn_shortcut [0] [0]
activation_7(激活)(无,128、80、82)0 add_3 [0] [0]
block_2b_conv_1(Conv2D)(无,128、80、82)147584 activation_7 [0] [0]
block_2b_bn_1(BatchNormalizati(无, 128、80、82)512 block_2b_conv_1 [0] [0]
activation_8(激活)(无,128、80、82)0 block_2b_bn_1 [0] [0]
block_2b_conv_2(Conv2D)(无,128、80、82)147584 activation_8 [0] [0]
block_2b_bn_2(BatchNormalizati(无,128、80、82)512 block_2b_conv_2 [0] [0] 添加
(________________ ,128,80,82)0 block_2b_bn_2 [0] [0]
activation_7 [0] [0]
激活_9(激活)(无,128、80、82)0 add_4 [0] [0]
block_3a_conv_1(Conv2D)(无,184、40、41)212152 activation_9 [0] [0]
block_3a_iz_n((B ,184,40,41)736 block_3a_conv_1 [0] [0]
activation_10(激活)(无,184,40,41)0 block_3a_bn_1 [0] [0]
block_3a_conv_2(Conv2D)(无,176,40,41)291632 activation_10 [0] [0]
block_3a_conv_Done() ,176,40,41)22704 activation_9 [0] [0]
block_3a_bn_2(BatchNormalizati(None,176,40,41)704 block_3a_conv_2 [0] [0]
block_3a_bn_shortcut(BatchNorm(None,176,40,41)704 block_3a_conv_shortcut [0] [0]
add_5(Add)(None,176,40,41)0 block_3a_bn_2 [0] [0] [0] [0]
block_3a_0
activation_11(激活)(无,176、40、41)0 add_5 [0] [0]
block_3b_conv_1(Conv2D)(无,168,40,41)266280 activation_11 [0] [0]
block_3b_bn_1(BatchNormalizati(无,168,40,41)672 block_3b_conv_1 [0] [12](
)(__ ) ,168,40,41)0 block_3b_bn_1 [0] [0]
block_3b_conv_2(Conv2D)(无,176,40,41)266288 activation_12 [0] [0]
block_3b_bn_2(BatchNormalizati(无,176,40,41)704 block_3b_conv_2 [0] [0]
N(6 176、40、41)0 block_3b_bn_2 [0] [0]
Activation_11 [0] [0]
activation_13(激活)(无,176,40,41)0 add_6 [0] [0]
block_4a_conv_1(Conv2D)(无,136,40,41)215560 activation_13 [0] [0]
block_4a_bn_1(BatchNormalizati( 136,40,41)544 block_4a_conv_1 [0] [0]
activation_14(激活)(无,136,40,41)0 block_4a_bn_1 [0] [0]
block_4a_conv_2(Conv2D)(无,216,40,41)264600 activation_14 [0] [0]
block_4a_conv_shortcut(Conv2D)(无,216,40,41)38232 Activation_13 [0] [0]
(Normal ,216,40,41)864 block_4a_conv_2 [0] [0]
block_4a_bn_shortcut(BatchNorm(无,216,40,41)864 block_4a_conv_shortcut [0] [0]
add_7(Add)(无,216、40、41)0 block_4a_bn_2 [0] [0]
block_4a_bn_shortcut [0]
activation_15(激活)(无,216、40、41)0 add_7 [0] [0]
block_4b_conv_1(Conv2D)(无,88,40,41)171160 activation_15 [0] [0]
block_4b_bn_1(BatchNormalizati(无,88,40,41)352 block_4b_conv_1 [0] [0]
activation_16(活化)(无, 88、40、41)0 block_4b_bn_1 [0] [0]
block_4b_conv_2(Conv2D)(无,216、40、41)171288 activation_16 [0] [0]
block_4b_bn_2(BatchNormalizati(None,216,40,41)864 block_4b_conv_2 [0] [0]
add_8(Add)(无,216、40、41)0 block_4b_bn_2 [0] [0]
activation_15 [0] [0]
activation_17(激活)(无,216、40、41)0 add_8 [0] [0]
output_bbox(Conv2D)(无,8,40,41)1736 activation_17 [0] [0]
output_cov(Conv2D)(无,2,40,41)434 activation_17 [0] [0]
====== ================================================== ==========================================
总参数:2,619,442可
训练参数:2,613,890
不可训练的参数:5,552
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
如果数据集包含目标/截断,则不会更新目标/截断以匹配作物面积。
2019-12-17 07:05:42,155 [INFO] iva.detectnet_v2.scripts.train:在训练集中找到6512个样本
Traceback(最近一次调用是最近一次):
文件“ / usr / local / bin / tlt-train-g1” ,在
sys.exit(main())
文件“ ./common/magnet_train.py”中的第10行,在主
文件“ </usr/local/lib/python2.7/dist-packages/ decorator.pyc:decorator-gen-2>”,主
文件“ ./detectnet_v2/utilities/timer.py”中的第2 行,wrapped_fn
文件“ ./detectnet_v2/scripts/train.py”,第632行中的第2行,在
run_experiment的主文件“ ./detectnet_v2/scripts/train.py”的第556行中
在train_gridbox中的文件“ ./detectnet_v2/scripts/train.py”,第466
行,在build_training_graph中,文件“ ./detectnet_v2/scripts/train.py”,第320行,在build_training_graph中,
文件“ ./detectnet_v2/model/detectnet_model.py”,在一行480,在build_training_graph
文件“ ./detectnet_v2/model/detectnet_model.py”中,第243
行,在projections_to_dict
文件“ ./detectnet_v2/objectives/base_objective.py”中,第97行,在reshape_output 文件中,“ / usr / local / lib / python2” .7 / dist-packages / keras / engine / base_layer.py“,第457行,位于__call__
输出= self.call(输入,** kwargs)
文件” /usr/local/lib/python2.7/dist-packages/ keras / layers / core.py”,第401行,在调用
返回K.reshape(inputs,(K.shape(inputs)[0],)+ self。target_shape)
文件“ /usr/local/lib/python2.7/dist-packages/keras/backend/tensorflow_backend.py”,行1969,在reshape
返回中tf.reshape(x,shape)
文件“ / usr / local / lib / python2 .7 / dist-packages / tensorflow / python / ops / gen_array_ops.py“,行7179,在重塑
“ Reshape”中,张量=张量,shape = shape,名称=名称)
文件“ / usr / local / lib / python2。 7 / dist-packages / tensorflow / python / framework / op_def_library.py“,行788,在_apply_op_helper中
op_def = op_def)
文件” /usr/local/lib/python2.7/dist-packages/tensorflow/python/util/deprecation .py”,第507行,在new_func中,
返回func(* args,** kwargs)
文件“ /usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py”,第3300行,在create_op
op_def = op_def中)
init
control_input_ops中的文件“ /usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/ops.py”,第1823行)
文件“ /usr/local/lib/python2.7/dist-包/tensorflow/python/framework/ops.py”,行1662,在_create_c_op中
引发ValueError(str(e))
ValueError:无法重塑具有102400个元素的张量以成形[8,2,4,40,41](104960元素)用于“ reshape_1_1 / Reshape”(op:“ Reshape”),输入形状为[8,8,40,40],[5],输入张量计算为部分形状:input [1] = [8,2 ,4,40,41]。