Problem CPU AMD Ryzen 5600X

Ryzen 5 5600X
Ryzen 5 5600X
Ilustrasi Ryzen 5 5600X

Baru saja menemukan masalah di Ubuntu desktop. Pada komputasi dengan beban ringan tidak ada masalah. Tapi kalau ada pengolahan data yang cukup berat terutama yang multi core, muncul pesan dari kernel dan komputer otomatis restart.

Deskripsi sistem:

  • Prosesor: AMD Ryzen 5 5600X
  • Mainboard: Asrock B450 Pro 4
  • Mainboard BIOS version: 4.80 (versi terbaru)
  • Memori: Corsair 32 GB (2×16)
  • Power Supply: Seasonic dan Corsair
  • Overclock: tidak ada overclock, setting di BIOS untuk CPU dan RAM menggunakan kecepatan standar (AUTO)
  • Sistem Operasi: Ubuntu 20.04

Percobaan di Ubuntu

Pengukuran #1 (via remote console)

Data berikut ini didapat dari remote console (SSH) dengan Putty. Pesan error tidak ada di /var/log, karena kernel panic tidak menghasilkan catatan log.

Kasus di core 5

kernel:[56582.292384] [Hardware Error]: Uncorrected, software restartable error.
kernel:[56582.292389] [Hardware Error]: CPU:5 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[56582.292394] [Hardware Error]: Error Addr: 0x0000000212bab300
kernel:[56582.292397] [Hardware Error]: IPID: 0x001000b000000000
kernel:[56582.292400] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[56582.292405] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Kasus di core 5

kernel:[11836.000115] [Hardware Error]: Uncorrected, software restartable error.
kernel:[11836.000329] [Hardware Error]: CPU:5 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[11836.000539] [Hardware Error]: Error Addr: 0x00000002c338b300
kernel:[11836.000753] [Hardware Error]: IPID: 0x001000b000000000
kernel:[11836.000964] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[11836.001178] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Kasus di core 10

kernel:[ 259.124195] [Hardware Error]: Uncorrected, software restartable error.
kernel:[ 259.124199] [Hardware Error]: CPU:10 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[ 259.124205] [Hardware Error]: Error Addr: 0x00000007a9b2bea0
kernel:[ 259.124207] [Hardware Error]: IPID: 0x001000b000000000
kernel:[ 259.124212] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[ 259.124216] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Kasus di core 11

kernel:[29125.820062] [Hardware Error]: Uncorrected, software restartable error.
kernel:[29125.820259] [Hardware Error]: CPU:11 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[29125.820479] [Hardware Error]: Error Addr: 0x00000007ca1d9880
kernel:[29125.820681] [Hardware Error]: IPID: 0x001000b000000000
kernel:[29125.820892] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[29125.821100] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Ryzen 5600X memiliki 6 core dengan 12 thread. Dari 12 itu, 3 bermasalah.

Pengukuran #2 (via serial console)

Tidak semua kejadian crash menghasilkan catatan pesan di console Putty. Untuk itu ditambahkan serial console supaya output dari console dapat direkam di komputer lain. Petunjuk menambahkan serial console di Ubuntu dirangkum ditulisan “Serial Console di Ubuntu 20.04

Berikut ini hasil rekaman crash dengan serial console

Berikut teks rekaman kernel panic tersebut di detik 339

[ 339.133954] mce: [Hardware Error]: CPU 11: Machine Check Exception: 7 Bank 0: bc00080001010135
[ 339.142703] mce: [Hardware Error]: RIP 10:<ffffffffa58743eb> {csum_partial_copy_generic+0x4b/0x169}
[ 339.151887] mce: [Hardware Error]: TSC 13351e22605 ADDR 217f04700 MISC d01a000000000000 IPID 1000b000000000
[ 339.161907] mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1621260956 SOCKET 0 APIC b microcode a201009
[ 339.171432] Kernel panic – not syncing: Fatal local machine check

Kasus berikut terjadi di detik ke 192

[ 192.279184] mce: [Hardware Error]: CPU 11: Machine Check Exception: 7 Bank 0: bc00080001010135
[ 192.288365] mce: [Hardware Error]: RIP 10:<ffffffff9ea7156e> {copy_user_enhanced_fast_string+0xe/0x30}

Kasus berikut terjadi di detik 25552

[25552.847056] mce: [Hardware Error]: CPU 11: Machine Check Exception: 7 Bank 0: bc00080001010135
[25552.856356] mce: [Hardware Error]: RIP 10:<ffffffff9487156e> {copy_user_enhanced_fast_string+0xe/0x30}
[25552.865975] mce: [Hardware Error]: TSC 55e329c132c5 ADDR 16fcb7680 MISC d01a000000000000 IPID 1000b000000000
[25552.876436] mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1621288267 SOCKET 0 APIC b microcode a201009
[25552.886316] Kernel panic – not syncing: Fatal local machine check

Percobaan di Windows

Percobaan berikut ini dilakukan di Windows 10. Dilakukan pengujian beban komputasi yang banyak. Setelah beberapa jam, komputer restart sendiri. Pesan kesalahan dilihat di Event Viewer. Pesan error berikut ini menandakan ada masalah di core 11:

Percobaan diulangi lagi. Setelah beberapa jam, muncul pesan kesalahan. Pada kesempatan ini yang error adalah core 10:

Analisis

Dari hasil membaca berbagai artikel, kemungkinan ada cacat fisik di core nomor 5,10 dan 11
Referensi:

Solusi Sementara

Matikan core 5 , 10 dan 11

echo 0 > /sys/devices/system/cpu/cpu5/online

echo 0 > /sys/devices/system/cpu/cpu10/online

echo 0 > /sys/devices/system/cpu/cpu11/online

Cara mematikan core didapat di artikel [disabling cpu cores] [How To Disable CPU] dan [CPU hotplug in the Kernel]

Setelah 3 core tersebut dimatikan, maka permasalahan tidak muncul lagi. Hanya saja jadinya CPU 12 core menjadi tinggal CPU 9 core 🙂

Studi Literatur

Masalah serupa pernah terjadi di Ryzen seri 5000: “If You Buy an AMD Ryzen 5000 CPU, Make Sure You Keep the Box

Solusi Permanen

Belum diketahui

Referensi

 

 

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *