Orin NX HDMI kernel panic when shutdown and connect Dell monitor

Hello Wayne

SSD1就是,裝Orin_Nano使用的image的M.2 SSD(PCIe x4),簡稱SSD1。

(1.)我們不討論任何 “特定 module” 才能複製到的問題 如果你能用其他任何module都能複製到, 那我們再進行確認。
→【特定Orin_nano + SSD1】,稍後我們再重新燒錄一次,再確認移除HDMI cable後,是不是100%能複製問題?!

(2.)Orin Nano Devkit + DP to HDMI轉接頭。
→這個不討論。請忽略此提問。

(3)Ubuntu執行關機的時候:
→p3509-a02+p3767-0000.conf
→Xavier_NX kit + Orin_NX module + Dell monitor(P2319H-4Y)(HDMI)
→Ubuntu執行Shutdown,無法順利關機。
→從Debug mode可以看到,tegra186_gpio_irq error一直出現,最後kernal panic。
→NV確認此問題,有沒有解答時間點?

→【特定Orin_nano + SSD1】,稍後我們再重新燒錄一次,再確認移除HDMI cable後,是不是100%能複製問題?!

我的意思是如果你們有10片Jetson Orin nano module可以做測試, 麻煩多用幾個module做嘗試. 如果有Orin NX, 也可以試試看 另外, 也不限定說一定要使用那個SSD. 你們可以多做一點嘗試然後再給出結論…
當然我們這邊之後也會根據你們的手法複製看看.

→NV確認此問題,有沒有解答時間點?

目前沒有, 另外 我想再澄清一下. “只有特定螢幕"會發生的問題, 跟"你底板上才會發生的問題”, 這兩件事情可能是沒有關聯的. 只要是HPD interrupt有異常行為, tegra186_gpio_irq就會出現.
比方說好了. 這個Dell2319的問題可能是此款螢幕在某些狀況下hpd可能會有連續異常的訊號進來. 如果換成其他款螢幕就沒發生, 那這個問題可能就不是我們能幫忙修的. (這不是結論, 我只是說有這個可能性)
我這邊想說的跟前面提過的一樣, 請不要把所有問題都歸類成同一種.
除了Dell的螢幕之外, 我們還需要你們確認到底有沒有辦法在NV devkit複製一樣的問題. 所謂的"一樣的問題"是指你們在custom board上複製到的方法,完全搬到devkit上做測試, 然後也能複製到這樣.

Hello Wayne

明白您想表達的意思!

重新sync問題,
我找到能夠100%複製tegra186_gpio_irq error的手法,如下:
硬體條件:Orin_NX module + NV官網Image + Xavier_NX Kit(底板)
手法:Ubuntu 登入畫面→選擇Shut down or Reboot→當系統程序(Shut down or Reboot)完成→拔掉HDMI cable!(timing 需要揣摩一下)
會能複製tegra186_gpio_irq error cause Kernal panic。

允許我重申一次:
*與螢幕無關
*與Power source無關
*與NVMe SSD無關

依你的要求,
我量了HDMI DDC、HPD、HDMI Power enable(MOD_SLEEP#)

HPD和MOD_SLEEP#,看起來沒有問題。

但,DDC有問題!(使用Xavier_NX Kit+ NV Orin_NX Image量測,得到以下結果)
NV logo這段,DDC 3.3V/5V 通訊可以active Low,正常

進到Ubuntu這段,DDC 3.3V/5V 通訊無法到Low,會卡在約2V的地方。(與螢幕型號無關)
我抓了NV module side的DDC(3V)和 螢幕端的DDC(5V)給你,看起來是NV端的DDC出問題!
Verify
Xavier_NX Kit + Xaver_NX module,DDC信號正常。

不確定DDC信號瑕疵與tegra186_gpio_irq error有沒有關係!?

DDC的波形,確定有問題。你們可以拿Xavier_NX Kit,Orin_NX,驗證看看。

Hi Charlie,

感謝你的幫忙量測. 我想請問一下. 請問你跟 @Wilson_Lin 最一開始碰到的問題就是這個情境嗎?
還是說你為了複製出問題 又去測了這個情境出來?

當系統程序(Shut down or Reboot)完成→拔掉HDMI cable!(timing 需要揣摩一下)

請問你的意思是說桌面已經消失了但是可能關機步驟還沒有結束這樣嗎?

不確定DDC信號瑕疵與tegra186_gpio_irq error有沒有關係!?

其實這就相當於HDMI driver部份還沒有做完de-init流程的狀況下你們就拔掉了HDMI. tegra186_gpio_irq還是從hotplug那邊偵測到不尋常的行為

另外想請問一下, 你能把訊號圖原圖分享一下嗎? 我們這邊看縮圖有點小 看的不是很清楚.

Hello Wayne

對,就是同一個Case!
因為我覺得問題太發散,所以先以這case討論就好

回到你的提問,
…桌面已經消失了但是可能關機步驟還沒有結束這樣嗎?
→對。
→Ubuntu選了"關機"→但系統還在關機程序中→拔掉HDMI cable→就能複製。

…相當於HDMI driver部份還沒有做完de-init流程,就拔掉了HDMI,
tegra186_gpio_irq還是從hotplug那邊偵測到不尋常的行為
→明白。
但這有瑕疵,不應該限制使用者,什麼時候拔HDMI cable。
→我明白Xavier_NX 和 Orin 架構不同,但實際上 Xavier_NX module,確實沒這個問題

原檔,我想辦法夾上來給你。

Orin_NX + Xavier Kit,能100%複製。 Orin_NX + 我們的底板(DSC-NV002-WT),能100%複製。

Orin_Nano + Xavier Kit + p3509-a02+p3767-0000.conf,能100%複製。
Orin_Nano + 我們的底板(DSC-NV002-WT) + p3509-a02+p3767-0000.conf,能100%複製。

1 Like

了解. 我只是想要確認說我們以這個case做討論.

Hello Wayne

<1>Orin_NX_NV002-WT_DDC_NV logo-1

<2>Orin_NX_NV002-WT_DDC_NV logo-2

<3>Orin_NX_NV002-WT_DDC_uBuntu-1

<4>Orin_NX_NV002-WT_DDC_uBuntu-2

<5>Orin_NX_Xavier_Kit_DDC_NV logo

<6>Orin_NX_Xavier_Kit_DDC_uBuntu

1 Like

Hi Charlie,

抱歉再請教一個問題, 你剛才好像提到拔線的timing可能要抓一下

請問在沒有辦法複製到問題的情況下, DDC的訊號跟有複製到問題的情況是一樣的嗎

Hello Wayne

拔線的timing可能要抓一下
→Ubuntu 選關機後,螢幕黑掉,就可以拔了。
→如果再複製不到,你多插拔幾次HDMI cable就好了(瘋狂插拔)。

DDC的訊號跟有複製到問題的情況是一樣的嗎
→依照目前這個手法,無一倖免。
→Normal 和 NG的時候,DDC都一樣。

另外
你現在的module 是 Orin_NX? 如果是,那你的config檔是多少??
還是
我上傳,我的config給你刷?

Hi Charlie,

我們這邊所有東西都能刷… 你們的config也是我們提供的 不太清楚為何需要給我們config…XD…

目前我們會看進去這個問題, 但具體要修掉的時程還沒辦法確定.

Hello Wayne

我意思是,
因為你複製不出來,如果懷疑是我們config 設定錯,而造成的issue,那我可以提供我們的config給你。

我剛剛又去檢查了一次,
ubuntu 點 關機 或 重新開機後,約2~3秒,拔掉HDMI cable,debug mode,就可以看到error log了。

Hello Wayne

另外,
DDC level,active Low不足,不夠Low,這個問題,也請幫忙一起關注
謝謝

1 Like

Hi Charlie,

抱歉造成誤會. 我還沒有開始複製問題. 只是先詢問一些問題確認情況.

Hello Wayne

明白,如issue有更新,再請幫忙更新,謝謝。
我們等候佳音。

1 Like

Hello Wayne

請問這issue,有更新消息嗎??

Hi Charlie,

我只能坦白說這個問題短時間之內還不會修掉. 而且由於Orin display的driver架構. 這個問題只能跟著jetpack release的時間修掉

Hello Wayne

您提到…
這個問題短時間之內還不會修掉. 而且由於Orin display的driver架構. 這個問題只能跟著jetpack release的時間修掉。
→NV內部可以複製相同問題?
→此issue,關係到敝司產品launch schedule,後續更新Jetpack會修正??

看了論壇,有蠻多篇都再討論這個問題,雖然還沒看到最終解,
但…
如果NV評估是已知issue,我們就靜候佳音。

Hello Wayne

kernel panic的issue,請問能回覆目前內部測試狀況嗎?
另,有沒有修正的issue的solution & schedule可以提供呢?

Hi Charlie,

還在內部討論中

Hello Wayne

等候多時,JP5.1.2已經release
請問已經修正 Kernel panic的問題了嗎??
請問已經修正DDC level錯誤的問題了嗎??