The device cann't start

Hi, we found 5 piece boards which cann’t boot up, and there are nothing from uart .
So we did experiments on a few of them for reflash, they can boot up again.
So we doubt the emmc maybe had bad block or maybe one boot partition was destroyed.
So we test to flash cboot.bin only on the last abnormal board , and found it cann’t flash.

Hi,

Not sure why you just want to flash cboot. Why not just full flash all of them and tell us the result?

???
we need konw the reson, please see my previous reply.
The modules in question had run aging video test, when do other tests , they need reboot, we found them cann’t boot up again. We are worried that the customer cannot turn on the machine in use!

請問一下你能否說明你現在的問題到底是什麼?

你剛告訴我說你的cboot flash 有問題但是你的full flash好像沒問題.
請問這是你想表達的嗎? 還是你想說其他的事情?

我想說的是你正在拿一個奇怪的步驟(單燒cboot) 來說明你覺得emmc有問題. 這聽起來是個不怎麼有說服力的測試. Full flash 也會燒cboot. 如果full flash沒問題的話那我會覺得你不用在意cboot flash error.

沟通的有点问题:我们的问题是:在生产测试中,发现5台设备无法开机,这些设备都是在测试使用中出现无法开机问题! 出现问题时接上串口,没有任何信息输出!即使重新上电,也无法开机,串口没有任何东西输出。 这个问题提给贵司帮忙分析!
在这个过程中,我们自我排查原因:1,5台设备中对其中4台重新烧录整个Image 包后,可以正常启动,猜测是不是emmc 有坏块或着哪个启动分区被破坏; 2.尝试先单独烧录cboot.bin看是否可以开机,尝试失败,这个尝试想请贵司看看有没有什么突破口!

我觉得我上面都有说清楚吧!至今未收到有效回复。

厄 這邊有幾點事情要澄清一下

  1. 關於你的第一個問題, 說實話我們沒有辦法分析. 更何況如果你是拿你們自己的開發版, 我們更無法澄清這到底是哪方的問題 如果懷疑是module問題我們會希望用devkit做測試.

我们的问题是:在生产测试中,发现5台设备无法开机,这些设备都是在测试使用中出现无法开机问题! 出现问题时接上串口,没有任何信息输出!即使重新上电,也无法开机,串口没有任何东西输出。 这个问题提给贵司帮忙分析!

而且你又馬上告訴我們說, 你整機重燒之後就可以正常啟動. 那我們更不覺得這部份有問題. 正常來說就算emmc有壞塊的話uart還是會有log.
老實說, 在我們的立場, 我們根本不能確定你一開始那5台module原本有沒有燒東西…
如果這個問題在這4片module上能反覆發生的話, 那我們才會懷疑是module問題…

2.尝试先单独烧录cboot.bin看是否可以开机,尝试失败

所以你這一條其實是想問兩個問題是嗎? 還是這個單獨燒錄cboot.bin跟你所謂的"不能開機" 你覺得有關連?

额,你是属于技术支持吗,感觉属于商务回复!
就当下我们的问题,贵司有什么建议吗?出现这种问题除了在devkit做測試还有什么建议?

厄… 再澄清一下狀況好了…

  1. 我是負責軟體的部份 你如果有爬其他的文的話應該看得出來…

  2. 現在第一個問題, 你說你有五片開機開不起來. 但連log都沒有給出來
    請問log都出不來我們軟體端是要如何幫你?
    如果你這個問題能反覆不斷發生, 我們當然能協助你確認, 比方說確認emmc lifecycle是否已到 或是直接RMA module.
    但當然也有些問題是發生在你們的底板上. 那我會請硬體人員來幫忙確認. 所以當然需要先了解你的情況…

  3. 第二個問題, 我們只是想確認你有沒有需要搞定cboot不能燒這個問題 還是你純粹想找一個failure來推論emmc有問題這個假設而已…

我另外再說明一下… 之所以不太確定你為何想單燒cboot是因為我們jetson nano (t210) cboot並沒有release source code. 所以這個binary都是我們BSP附的那個…

如果今天full flash能燒錄的話… 單燒cboot的效益不太大…

感谢回复!因为没有log,但full flash能燒錄成功,并之后可以启动,目前就这些线索,当下还有什么排查建议!

你如果懷疑是emmc的問題的話 也可以先dump emmc lifetime…

root@nvidia-desktop:/home/nvidia# cat /sys/block/mmcblk0/device/life_time
root@nvidia-desktop:/home/nvidia# cat /sys/block/mmcblk0/device/pre_eol_info

如果以上結果都正常的話, 我會建議你持續驗證那幾台機器幾天看看還能不能複製到問題.

I want to suggest that one reason serial console might not have output is due to power rails and/or clocks being set up. This has a lot to do with the carrier board. Do make sure with an oscilloscope that UART actually has no output, at all, rather than simply not seeing the output in a serial console program. A serial console program, when data is far enough off from requirements, will simply remain blank. Can you verify that the UART TX and RX, when monitored with an oscilloscope, have no output at all?

Additionally, for those same eMMC modules which fail on your carrier boards, if you directly transplant them to another model of carrier board which is known to work, and do not modify software, do you get serial UART boot output? The module does not have to actually boot correctly, the intent is to test if serial UART output failure follows module versus following carrier board. If it follows carrier board, and if the carrier board has no actual output on the oscilloscope, then I’d start validating power and clock bring-up (which is a step closer to finding why it fails).

Hi, WayneWWW:
life_time和pre_eol_info表示什么含义?

Hi,请问下:cboot, nvtboot是存储在EMMC的分区里还是SOC的其它ROM里

All under emmc.

HI,再请教个问题:使用nvmflash或flash脚本进行系统刷机,是仅刷emmc这个媒介,还是同时会刷到emmc之外的ROM上?
我们把起来不的模块的EMMC换到另一个可以正常工作的模块上,也是可以起来的,是不是排除EMMC上数据错误导致,还有什么情况会导致EMMC上的code没有被执行?

我们把起来不的模块的EMMC换到另一个可以正常工作的模块上

看不太懂你這句話想表達的意思. 你是把module拆了然後把emmc移走嗎?

是的,做了一组交叉验证,把异常模组的emmc移下来换到一个正常的模组上,正常模组能起来,把正常模组的emmc换到异常模组上,异常模组还是起不来。

你的意思是你的異常模組自從上次重新燒完之後不久又發生了一樣的現象嗎? 還是你在指其他的模組?

Do you mean your problematic module hit the same issue again after the last successful flash case? or your are talking about other modules?

Hi,我们有保留一片异常模组,做了一组交叉验证,把异常模组的emmc移下来换到一个正常的模组上,正常模组能起来,把正常模组的emmc换到异常模组上,异常模组还是起不来。