Orin35.4.1-64G-自研载板软重启失败。请问有什么解决办法吗?

Hi,
为了避免进入recovery boot模式,我在每次重启前输入service nv-l4t-bootloader-config start命令。然后sudo reboot软重启,12次以内基本有1次会重启失败,失败log见附件
orin35.4.1-fail-reboot.txt (85.9 KB)
请问您有什么解决办法吗?如果需要其他资料,请告知。
谢谢!

你要不要先看一下你前幾篇問的問題到底解決了沒
我覺得你現在是把好幾個不相關的問題混在一起問…

看起來是你接的device的driver有問題所以卡住
kernel加個debug patch看一下卡在哪裡

diff --git a/kernel/rcu/tree_stall.h b/kernel/rcu/tree_stall.h
index 251a9af..68320f0 100644
--- a/kernel/rcu/tree_stall.h
+++ b/kernel/rcu/tree_stall.h
@@ -535,6 +535,8 @@
 	rcu_check_gp_kthread_starvation();
 
 	panic_on_rcu_stall();
+	pr_crit("====sumitg: Blocked tasks====<%s>\n", __func__);
+	show_state_filter(TASK_UNINTERRUPTIBLE);
 
 	rcu_force_quiescent_state();  /* Kick them all. */
 }
@@ -580,6 +582,8 @@
 			   jiffies + 3 * rcu_jiffies_till_stall_check() + 3);
 	raw_spin_unlock_irqrestore_rcu_node(rnp, flags);
 
+	pr_crit("====sumitg: Blocked tasks====<%s>\n", __func__);
+	show_state_filter(TASK_UNINTERRUPTIBLE);
 	panic_on_rcu_stall();
 
 	/*
diff --git a/kernel/watchdog.c b/kernel/watchdog.c
index 01bf977..df803fb 100644
--- a/kernel/watchdog.c
+++ b/kernel/watchdog.c
@@ -416,10 +416,14 @@
 			dump_stack();
 
 		if (softlockup_all_cpu_backtrace) {
+			pr_crit("===sumitg: in softlockup_all_cpu_backtrace===<%s>\n", __func__);
 			trigger_allbutself_cpu_backtrace();
 			clear_bit_unlock(0, &soft_lockup_nmi_warn);
 		}
 
+		pr_crit("====sumitg: Blocked tasks====<%s>\n", __func__);
+		show_state_filter(TASK_UNINTERRUPTIBLE);
+
 		add_taint(TAINT_SOFTLOCKUP, LOCKDEP_STILL_OK);
 		if (softlockup_panic)
 			panic("softlockup: hung tasks");

Hi,
我软重启了几次,抓了两次失败的log,请看附件。
orin35.4.1-reboot-crash_0419_2.txt (96.4 KB)
orin35.4.1-reboot-crash_0419.txt (102.7 KB)
谢谢!

你要不要把PCIe跟camera之類的東西都拿掉再試試看
還有你說不是每次開機都會失敗?

Hi,

是的,不是每次开机都会失败。

我们的载板上主要的硬件就是相机和nvme0n1,去掉以后没什么硬件了,可以从其他方面着手吗?

你先確認到底是不是camera的問題

Hi,
我已经在设备树里面disabled了所有相机,但是还是偶尔有软重启失败。失败log请看附件。
orin35.4.1-reboot-crash_0419_3.txt (121.6 KB)

你的Ethernet跟PCIe看起來也有問題

Hi,
看哪里知道Ethernet跟PCIe有问题,需要提供运行正确时候的log吗?结下来怎么做,disable网口和pcie吗?
谢谢!

你自己看log不就可以看到一堆Ethernet和PCIe的error了…

當然

還有你有沒有多拿幾塊底板測試過
是只有這一塊有問題所以開機會死掉還是每一塊都會

Hi,
附件为软重启成功的log
Orin35.4.1-64G-reboot-crash-0422.txt (96.9 KB)

测过多块底板,现象是一样的,软重启会偶尔失败。

kernel的部份能請先還原成default image提供的kernel測試嗎?

Hi,
还原成原始的Image,也有软重启失败的现象。附件为失败的log.
orin35.4.1-reboot-crash_0422.txt (78.4 KB)

請問你的pcie C1有在使用嗎? 可否先disabled試試?

Hi,
使用PCIE C1的设备是一个网口驱动,我已经disable掉了。
现在遇到的情况是软重启后不会crash,但是大概率会自动重启多次才进入系统。我测试最糟糕的情况是软重启后自动重启三次才进入系统。附件为自动重启三次的log。
orin35.4.1-reboot-reboot_0422_4.txt (352.9 KB)

請在kernel cmdline裡面加上 ignore_loglevel之後重抓log.

Hi,
现在测试的情况是在设备树里面disable pcie C1和相机,然后在kernel cmdline加上ignore_loglevel,测试了20次每次都能软重启成功。接下来有什么建议吗?
谢谢!

沒什麼建議 看你要不要測個3000次之類的看一下你到底會不會複製到?

Reboot stress 20次聽起來有點沒意義

Hi,
我的意思是pcie C1和相机是肯定需要的,有什么办法加上这些驱动并且软重启成功。
如果没有这些驱动,载板就没有存在的意义。
然后,我并不觉得驱动有什么问题,我们的测试人员曾断电重启几千次,没有出现过重启失败的情况。