HDIM donot work

开机之后hdmi开在log界面
出现问题视频.zip (560.9 KB)
,但是ssh可以远程登录,报错log如下
kern.log (1.0 MB)

显示器:AOC -HDMI 显示器
nvidia-jetpack:4.6

please share your /var/log/xorg.0.log.

Xorg.0.log (7.4 KB)

[ 1768.767] (II) NVIDIA GLX Module 32.6.1 Release Build (integ_stage_rel) (buildbrain@mobile-u64-5497-d3000) Mon Jul 26 12:15:20 PDT 2021
[ 1768.767] (EE) NVIDIA(GPU-0): Failed to initialize the NVIDIA graphics device!
[ 1768.767] (EE) NVIDIA(0): Failing initialization of X screen 0

What is the result of “lsmod” on your jetson?

这个问题是概率性的问题,复现设备还需要使用,重启设备了

我不太確定這個為何會是"概率性的问题"…
這邊看到的現象就是 nvgpu driver的log在你的kern.log沒出現

nvgpu沒起來, GUI就一定出不來. 之所以問你lsmod的結果就是我猜lsmod應該沒有nvgpu.

至於為什麼沒有就要另外釐清了.
但我不認為這件事情會偶爾發生/不發生… 應該就是全有全無而已. 壞了就是每次都沒有GUI. 應該不會有這次壞下次又好的狀況.

客户那边较低的概率会发生,大部分情况都不会发生,emmc很小,客户把emmc迁移到ssd中,不知道和这个有没有关系

  1. 從你給的log來看, rootfs看起來還是從emmc load進來的. 有一顆nvme但看起來rootfs不是從它來的

Nov 27 16:31:09 lcfc-desktop kernel: [ 0.000000] Kernel command line: console=ttyTCU0,115200 video=tegrafb no_console_suspend=1 earlycon=tegra_comb_uart,mmio32,0x0c168000 gpt tegra_fbmem=0x800000@0xa069c000 lut_mem=0x2008@0xa0696000 usbcore.old_scheme_first=1 tegraid=19.1.2.0.0 maxcpus=6 boot.slot_suffix= boot.ratchetvalues=0.4.2 vpr_resize sdhci_tegra.en_boot_part_access=1 quiet root=/dev/mmcblk0p1 rw rootwait rootfstype=ext4 console=ttyTCU0,115200n8 console=tty0 fbcon=map:0 net.ifnames=0

  1. 通常這種情況就是kernel跟kernel module的版本不匹配所以 nvgpu.ko要load的時候有問題.
    用SSD的確有可能發生這種狀況. 比方說kernel從SSD load但是開機之後的rootfs還在emmc.

  2. 還是建議你們複製到問題之後確認我說的 lsmod結果. 不然這裡都只是在盲猜而已

好的,那等下次发生这样情况下,我们lsmod看一下,谢谢

我說的完整一點

請你們複製到問題之後

  1. 確認lsmod結果
  2. 如果沒有nvgpu, 請你們跑sudo modprobe nvgpu然後確認有沒有error log.
  3. 請把完整的開機uart log抓下來

看起來你們客戶的kernel版本跟你說的不一樣. 如果真的是jetpack 4.6 (rel-32.6.1), 那kernel版本是 4.9.253.
但你們kern.log的結果才4.9.140. 這很明顯是更早版本的kernel (大概是rel-32.4.x左右)

kernel版本是 4.9.140-tegra
nvidia-jetpack:4.6-b197

kernel版本和nvidia-jetpack 是不一样,导致会出现不配备的问题是这个意思吗

客户使用场景,而且是低概率问题,客户uart log没办法抓下来,通过sudo dmesg和/var/log下面log可以吗

kernel版本和nvidia-jetpack 是不一样,导致会出现不配备的问题是这个意思吗

基本上我們不建議這樣做. 盡量使用同版本的

客户使用场景,而且是低概率问题,客户uart log没办法抓下来,通过sudo dmesg和/var/log下面log可以吗

如果想要釐清到底是不是 SSD造成的, 那就得看UART. dmesg/syslog都看不出來.

抓uart log确实有点麻烦,我们想想办法,谢谢

今天又复现了,发现确实是nvgpu没有加载,串口的log还需当时没接,后续在复现

error看來是/lib/modules/4.9.140-tegra這個資料夾不存在

麻煩確認一下那個路徑下面是有什麼.

另外, 我前面也說了, 他的kern.log看起來rootfs還是從emmc抓的. 有可能是典型的kernel image從nvme讀… 但是kernel module從emmc讀…

下面是串口log
log20231128.txt (30.1 KB)

设备像是死机了,没办法操作了

  1. 機器還是從emmc抓kernel.

  2. kernel版本是4.9.140…

  3. rootfs裡面的kernel modules 版本是4.9.254…

兩個版本不匹配. 所以一堆driver起不來…
請問 4.9.253-tegra是/lib/modules底下唯一的資料夾嗎?

另外我看不出來你們機器死機了…如果uart操作沒反應, 比較像是你們tx/rx線接反了…

1 Like

我们ssh远程进去了,

請問 4.9.253-tegra是/lib/modules底下唯一的資料夾嗎? ->是的

确实是这样的,kernel和/lib/modules不一致,导致很多驱动加载出现错误,感谢

This topic was automatically closed 14 days after the last reply. New replies are no longer allowed.