PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Notfall: Kernelpanic auf Root-Server übers Wochenende!



binary trust
21.02.05, 09:05
Hi,

als ich aus dem Wochenende kamm erwartete mich eine böse Überaschung, unser Root-Server bei Strato ist nichtmehr erreichbar! Fakt ist das ich keinerlei Veränderungen vorgenohmen habe und nun einfach nicht weiterweis.

Betriebssystem ist ein SuSE 9.0 und über Nacht spielt er mittels yast online_update neue Packete ein und macht einen Virencheck sowie Backup. Die Fehlermeldung beim booten ist folgende:



Unable to handle kernel NULL pointer dereference at virtual address 00000004
printing eip:
c012490e
*pde = 00000000
Oops: 0002 2.4.21-273-default #1 Mon Jan 17 13:18:00 UTC 2005
CPU: 0
EIP: 0010:[<c012490e>] Not tainted
EFLAGS: 00010002
eax: cdd70184 ebx: cdd70184 ecx: 00004e1f edx: 00000000
esi: 00000006 edi: 00000246 ebp: 00000025 esp: c249bd8c
ds: 0018 es: 0018 ss: 0018
Process fsck.reiserfs (pid: 78, stackpage=c249b000)
Stack: c03bc8d0 c03bc820 c01f6f6e cdd70184 c03bc820 c03bc8d0 cdd59e40 000001f3
c0205ecf c03bc8d0 00000025 c02054b0 00004e20 c0205bd0 01000000 000001f5
000001f4 c03bc820 c0200137 c03bc8d0 01000046 c01f66aa 000001f7 00800000
Call Trace: [<c01f6f6e>] (24) [<c0205ecf>] (12) [<c02054b0>] (08)
[<c0205bd0>] (20) [<c0200137>] (12) [<c01f66aa>] (40) [<c01febfe>] (52)
[<c01fed1f>] (32) [<c01ff282>] (12) [<c02054b0>] (20) [<c010a090>] (32)
[<c010a23d>] (32) [<c010c5b8>] (44) [<c0133d34>] (36) [<c013383d>] (44)
[<c0133ce0>] (32) [<c0133f4c>] (16) [<c0133ce0>] (12) [<c0125427>] (40)
[<c0144598>] (36) [<c0108e13>] (60)
Code: 89 5a 04 c7 43 14 e0 82 36 c0 89 43 04 0f ba 73 18 00 56 9d
<0>Kernel panic: Aiee, killing interrupt handler!
In interrupt handler - not syncing


Ich hab nun keine Ahnung ob es hier ihgendwas mit einen Hardwarebug oder ein SuSE-Kernelupdate oder sonstiges zu tuhen hat, oder ob ev. es ein Bösewicht geschaft hat auf mein Rechner einzudringen (Scanns und fehlerhafte SSH Loginversuche usw. sind eigentlich ganz normal). Selbst wenn yast online update versucht hätte ein Kernelupdate einzuspielen wäre es aufgrund /boot ro nicht soweit gekommen, desweiteren hätte sich dann ja auch der Rechner nicht einfach aufgeähngt, sonder frühstens bei einem Neustart oder sonstigen. Kann mir ihrgendjemand weiterhelfen was ich ev. tuhen kann? Mittels Remote Konsole hab ich auf die Platten zugriff und kann denn Rechner neustarten usw.

Brauche dringent Rat!!!

Gruß
BInary Trust (verzweifelter Admin)

Berufspenner
21.02.05, 09:15
Hi

Ich habe für das Problem leider keine Lösung parat, da es mir selber Kopfschmerzen bereitet/hat. Bei meiner SMP-Maschiene, zu Hause, tritt dieses Problem auf, wenn durch Schwierigkeiten mit der Belüftung die Prozessoren bzw. das System an sich zu warm wird. Zumindest tratt dieses Problem immer bei höheren Außentemperaturen auf (der Rechner steht auf dem Dachboden, wo sich im Sommer doch schon die Hitze staut). Da bei Strato im RZ wohl aber bessere Verhältnisse, als bei mir auf dem Dachboden herrschen, könnte es, wenn es überhaupt etwas damit zu tun haben sollte, ja an einem Defekt der Belüftung innerhalb des Servers liegen, wodurch er zu heiß wird und den Dienst quetiert. Aber dies sind alles nur waage Vermutungen.

binary trust
21.02.05, 09:22
hi,

danke erstmal für denn tipp.
kannst du mir die fehlermeldung erklären was auf deine vermutung hinweis.
wenn ich nun bei strato anrufe und dort bezüglich eines hardwareproblems terror mache muss ich dies ja auch begründen können.

das wäre allerdings eine logische erklärung da der rechner ohne fremdeinwirkung (zumindest nicht durch mich!) einfach zerschossen ist. kann ich ihrgendwie mittels logfiles oder sonstigen ev. hier was posten was mein problem näher auf die spur kommt ???

die erste fehlermeldung bevor ich mittels remote aministration etwas aufgeräumt hatte (reiserfscheck, und acpi=off im boot modus geschalten habe) war folgende:



PXELINUX 1.76 2002-08-27 Copyright (C) 1994-2002 H. Peter Anvin
Booting from local disk...
Linux version 2.4.21-273-default (root@i386.suse.de) (gcc version 3.3.1 (SuSE Linux)) #1 Mon Jan 17 13:18:00 UTC 2005
BIOS-provided physical RAM map:
BIOS-e820: 0000000000000000 - 00000000000a0000 (usable)
BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 000000003f7f0000 (usable)
BIOS-e820: 000000003f7f0000 - 000000003f7f3000 (ACPI NVS)
BIOS-e820: 000000003f7f3000 - 000000003f800000 (ACPI data)
BIOS-e820: 00000000fec00000 - 0000000100000000 (reserved)
128MB vmalloc/ioremap area available.
119MB HIGHMEM available.
896MB LOWMEM available.
On node 0 totalpages: 260080
zone(0): 4096 pages.
zone(1): 225280 pages.
zone(2): 30704 pages.
ACPI: RSDP (v000 IntelR ) @ 0x000f6de0
ACPI: RSDT (v001 IntelR AWRDACPI 16944.11825) @ 0x3f7f3000
ACPI: FADT (v001 IntelR AWRDACPI 16944.11825) @ 0x3f7f3040
ACPI: MADT (v001 IntelR AWRDACPI 16944.11825) @ 0x3f7f6cc0
ACPI: DSDT (v001 INTELR AWRDACPI 00000.04096) @ 0x00000000
ACPI: Skipping APIC setup
Kernel command line: root=/dev/hda3 console=tty0 console=ttyS0,57600 desktop splash=silent showopts
bootsplash: silent mode.
Building zonelist for node : 0
Initializing CPU#0
Detected 2798.724 MHz processor.
Console: colour VGA+ 80x25
Calibrating delay loop... 5521.40 BogoMIPS
Memory: 1024520k/1040320k available (1583k kernel code, 15416k reserved, 605k data, 160k init, 122816k highmem)
Dentry cache hash table entries: 131072 (order: 8, 1048576 bytes)
Inode cache hash table entries: 65536 (order: 7, 524288 bytes)
Mount cache hash table entries: 512 (order: 0, 4096 bytes)
Buffer-cache hash table entries: 65536 (order: 6, 262144 bytes)
Page-cache hash table entries: 262144 (order: 8, 1048576 bytes)
CPU: Trace cache: 12K uops, L1 D cache: 8K
CPU: L2 cache: 512K
Intel machine check architecture supported.
Intel machine check reporting enabled on CPU#0.
CPU: Intel(R) Pentium(R) 4 CPU 2.80GHz stepping 09
Enabling fast FPU save and restore... done.
Enabling unmasked SIMD FPU exception support... done.
Checking 'hlt' instruction... OK.
POSIX conformance testing by UNIFIX
mtrr: v1.40 (20010327) Richard Gooch (rgooch@atnf.csiro.au)
mtrr: detected mtrr type: Intel
ACPI: Subsystem revision 20030619
PCI: PCI BIOS revision 2.10 entry at 0xfb310, last bus=1
PCI: Using configuration type 1
Looking for DSDT in initrd ... not found!
ACPI: Interpreter enabled
ACPI: Using PIC for interrupt routing
ACPI: System [ACPI] (supports S0 S1 S4 S5)
ACPI: PCI Root Bridge [PCI0] (00:00)
PCI: Probing PCI hardware (bus 00)
PCI: Ignoring BAR0-3 of IDE controller 00:1f.1
Transparent bridge - Intel Corp. 82801BA/CA/DB/EB PCI Bridge
ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 7 9 10 11 *12 14 15)
ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 7 9 10 *11 12 14 15)
ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 *5 7 9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 5 7 *9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 7 9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 5 7 9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNK0] (IRQs 3 4 5 7 9 10 *11 12 14 15)
ACPI: PCI Interrupt Link [LNK1] (IRQs 3 4 5 7 9 *10 11 12 14 15)
PCI: Probing PCI hardware
ACPI: PCI Interrupt Link [LNKA] enabled at IRQ 12
ACPI: PCI Interrupt Link [LNKB] enabled at IRQ 11
ACPI: PCI Interrupt Link [LNKC] enabled at IRQ 5
ACPI: PCI Interrupt Link [LNKD] enabled at IRQ 9
ACPI: PCI Interrupt Link [LNK1] enabled at IRQ 10
ACPI: PCI Interrupt Link [LNK0] enabled at IRQ 11
ACPI: PCI Interrupt Link [LNKE] enabled at IRQ 10
ACPI: PCI Interrupt Link [LNKF] enabled at IRQ 9
PCI: Using ACPI for IRQ routing
PCI: if you experience problems, try using option 'pci=noacpi' or even 'acpi=off'
Linux NET4.0 for Linux 2.4
Based upon Swansea University Computer Society NET3.039
Initializing RT netlink socket
apm: BIOS version 1.2 Flags 0x07 (Driver version 1.16)
apm: overridden by ACPI.
Starting kswapd
bigpage subsystem: allocated 0 bigpages (=0MB).
allocated 32 pages and 32 bhs reserved for the highmem bounces
kinoded started
VFS: Disk quotas vdquot_6.5.1
aio_setup: num_physpages = 65020
aio_setup: sizeof(struct page) = 48
Detected PS/2 Mouse Port.
pty: 256 Unix98 ptys configured
keyboard: Timeout - AT keyboard not present?(ed)
keyboard: Timeout - AT keyboard not present?(f4)
Serial driver version 5.05c (2001-07-08) with HUB-6 MANY_PORTS MULTIPORT SHARE_IRQ SERIAL_PCI enabled
ttyS00 at 0x03f8 (irq = 4) is a 16550A
ttyS01 at 0x02f8 (irq = 3) is a 16550A
Real Time Clock Driver v1.10e
FDC 0 is a post-1991 82077
RAMDISK driver initialized: 16 RAM disks of 64000K size 1024 blocksize
loop: loaded (max 16 devices)
Uniform Multi-Platform E-IDE driver Revision: 7.00beta4-2.4
ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx
PIIX-4: IDE controller at PCI slot 00:1f.1
PIIX-4: chipset revision 2
PIIX-4: not 100% native mode: will probe irqs later
ide0: BM-DMA at 0xcc00-0xcc07, BIOS settings: hda:DMA, hdb:pio
ide1: BM-DMA at 0xcc08-0xcc0f, BIOS settings: hdc:pio, hdd:pio
hda: HDS722580VLAT20, ATA DISK drive
blk: queue c03bc8e0, I/O limit 4095Mb (mask 0xffffffff)
ide0 at 0x1f0-0x1f7,0x3f6 on irq 14
hda: attached ide-disk driver.
hda: host protected area => 1
hda: 160836480 sectors (82348 MB) w/1794KiB Cache, CHS=10011/255/63, UDMA(100)
ide-floppy driver 0.99.newide
Partition check:
hda: hda1 hda2 hda3 hda4 < hda5 hda6 hda7 hda8 hda9 hda10 hda11 >
ide-floppy driver 0.99.newide
md: md driver 0.90.0 MAX_MD_DEVS=256, MD_SB_DISKS=27
md: Autodetecting RAID arrays.
md: autorun ...
md: ... autorun DONE.
NET4: Linux TCP/IP 1.0 for NET4.0
IP Protocols: ICMP, UDP, TCP, IGMP
IP: routing cache hash table of 8192 buckets, 64Kbytes
TCP: Hash tables configured (established 262144 bind 65536)
Linux IP multicast router 0.06 plus PIM-SM
NET4: Unix domain sockets 1.0/SMP for Linux NET4.0.
cryptoapi: loaded
RAMDISK: Compressed image found at block 0
Freeing initrd memory: 243k freed
VFS: Mounted root (ext2 filesystem).
Loading kernel/fs/reiserfs/reiserfs.o
reiserfs: found format "3.6" with standard journal
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,3)) ...
for (ide0(3,3))
Using r5 hash to sort names
VFS: Mounted root (reiserfs filesystem) readonly.
Trying to move old root to /initrd ... failed
Unmounting old root
Trying to free ramdisk memory ... okay
Freeing unused kernel memory: 160k freed
INIT: version 2.82 booting
System Boot Control: Running /etc/init.d/boot
Mounting /proc filesystem done
Mounting /dev/pts done
Boot logging started on /dev/ttyS0(/dev/console) at Mon Feb 21 08:46:36 2005
md: Autodetecting RAID arrays.
md: autorun ...
md: ... autorun DONE.
Activating swap-devices in /etc/fstab...
Adding Swap: 1028152k swap-space (priority 42) done
reiserfs: enabling write barrier flush mode
Checking file systems...
fsck 1.34 (25-Jul-2003)
Reiserfs super block in block 16 on 0x303 of format 3.6 with standard journal
Blocks (total/free): 1024143/922473 by 4096 bytes
Filesystem is clean
Filesystem seems mounted read-only. Skipping journal replay.
Checking internal tree..finished
/dev/hda1: clean, 37/14056 files, 10169/56196 blocks
Reiserfs super block in block 16 on 0x305 of format 3.6 with standard journal
Blocks (total/free): 1024135/935974 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished
Reiserfs super block in block 16 on 0x306 of format 3.6 with standard journal
Blocks (total/free): 769104/706868 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished
Reiserfs super block in block 16 on 0x307 of format 3.6 with standard journal
Blocks (total/free): 257032/248813 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished
Reiserfs super block in block 16 on 0x308 of format 3.6 with standard journal
Blocks (total/free): 3841535/3833193 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished
Reiserfs super block in block 16 on 0x309 of format 3.6 with standard journal
Blocks (total/free): 257032/248811 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished
Reiserfs super block in block 16 on 0x30a of format 3.6 with standard journal
Blocks (total/free): 3841535/3822279 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished
Reiserfs super block in block 16 on 0x30b of format 3.6 with standard journal
Blocks (total/free): 3841535/3490135 by 4096 bytes
Filesystem is clean
Replaying journal..
0 transactions replayed
Checking internal tree..finished done
reiserfs: enabling write barrier flush mode
Mounting local file systems...
proc on /proc type proc (rw)
devpts on /dev/pts type devpts (rw,mode=0620,gid=5)
Journalled Block Device driver loaded
kjournald starting. Commit interval 5 seconds
EXT3-fs: mounted filesystem with ordered data mode.
/dev/hda1 on /boreiserfs_getopt: unknown option "noatine"
ot type ext3 (ro,noatime)
mount: wrong fs type, bad option, bad superblockreiserfs: found format "3.6" with standard journal
on /dev/hda5,
or too many mounted file systems
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,6)) ...
for (ide0(3,6))
Using r5 hash to sort names
/dev/hda6 on /var type reiserfs (rw,noexec,nosuid,nodev,noatime)
reiserfs: found format "3.6" with standard journal
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,7)) ...
for (ide0(3,7))
Using r5 hash to sort names
/dev/hda7 on /var/tmp type reiserfs (rw,noexec,nreiserfs: found format "3.6" with standard journal
osuid,nodev,noatime)
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,8)) ...
for (ide0(3,8))
Using r5 hash to sort names
/dev/hda8 on /var/mail type reiserfs (rw,noexec,nosuid,nodev,noatime)
reiserfs: found format "3.6" with standard journal
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,9)) ...
for (ide0(3,9))
Using r5 hash to sort names
/dev/hda9 on /tmp type reiserfs (rw,noexec,nosuid,nodev,noatime)
reiserfs: found format "3.6" with standard journal
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,10)) ...
for (ide0(3,10))
Using r5 hash to sort names
/dev/hda10 on /srv type reiserfs (rw,nosuid,nodev,noatime)
reiserfs: found format "3.6" with standard journal
reiserfs: enabling write barrier flush mode
reiserfs: using ordered data mode
reiserfs: checking transaction log (device ide0(3,11)) ...
for (ide0(3,11))
Using r5 hash to sort names
/dev/hda11 on /backup type reiserfs (rw,noexec,nosuid,nodev,noatime) failed
Activating remaining swap-devices in /etc/fstab... done
Mounting shared memory FS on /dev/shm done
Loading required kernel modules done
Restore device permissions done
Setting up the CMOS clock done
Setting scheduling timeslices unused
Setting up hostname 'linux' done
Setting up loopback interface done
Enabling syn flood protection done
Disabling IP forwarding done
Creating /var/log/boot.msg done
System Boot Control: The system has been setup
Skipped features: boot.sched
System Boot Control: Running /etc/init.d/boot.local done
INIT: Entering runlevel: 3
Boot logging started on /dev/ttyS0(/dev/console) at Mon Feb 21 08:46:53 2005
Master Resource Control: previous runlevel: N, switching to runlevel: 3
Initializing random number generator done
Starting Firewall Initialization (phase 1 of 3) failed
Setting up network interfaces:
lo done
eth0 Intel(R) PRO/1000 Network Driver - version 5.2.16
Copyright (c) 1999-2003 Intel Corporation.
kernel BUG at timer.c:341!
invalid operand: 0000 2.4.21-273-default #1 Mon Jan 17 13:18:00 UTC 2005
CPU: 0
EIP: 0010:[<c0124bb1>] Not tainted
EFLAGS: 00010002
eax: c0368c00 ebx: 00000000 ecx: c0368c00 edx: c0368af0
esi: 00000001 edi: c03682e0 ebp: c0368c04 esp: c34e9d54
ds: 0018 es: 0018 ss: 0018
Process modprobe.old (pid: 376, stackpage=c34e9000)
Stack: 00000000 00000001 fffffffe c03682e0 c0124dc3 c03682e0 c0368af0 00000282
c34e9d74 c34e9d74 00000000 00000001 fffffffe 00000000 c0125427 c03682e0
c0121b12 c01219f9 00000000 c0350ea0 c0121792 c0350ea0 00000046 c34e9db0
Call Trace: [<c0124dc3>] (40) [<c0125427>] (08) [<c0121b12>] (04)
[<c01219f9>] (12) [<c0121792>] (32) [<c010a26c>] (20) [<c010c5b8>] (44)
[<c0285164>] (16) [<cedf63fc>] (36) [<cedf6796>] (60) [<cedf68c0>] (40)
[<cedf0507>] (52) [<cedfefe4>] (04) [<cedff2c0>] (12) [<c0209c21>] (08)
[<cedfefe4>] (08) [<cedff2c0>] (12) [<c0209cac>] (04) [<cedff2c0>] (20)
[<cedf0094>] (04) [<cedff2c0>] (12) [<c011e3f4>] (52) [<cedf0060>] (104)
[<c0108e13>] (60)
Modules: [(e1000:<cedf0060>:<cedff944>)]
Code: 0f 0b 55 01 13 19 2a c0 8b 41 04 8b 31 89 30 89 46 04 c7 01
<0>Kernel panic: Aiee, killing interrupt handler!
In interrupt handler - not syncing




1.)ich arbeite mich gerade durch diverse logfiles,
kann ich ihrgendwie feststellen ob eine datei von hand (wann und von wem) geändert worden ist, sprich ob einträge gelöscht wurden???

2.) Kann ich anhand eines logfiles nachlesen ob und was yast online_update als letztes getrieben hat? bzw. weis jemand von euch ob es für suse 9.0 am weekend ein kernelupdate gab?

Berufspenner
21.02.05, 09:37
Hi

Naja, die Meldung bezieht sich ja immer auf die (eine) CPU und spuckt halt den Punkt der Berechnung aus, an dem er scheinbar gekillt wird. Die Ursachen wären vielfälltig.

http://www.tlug.de/pipermail/tlug_allgemein/1999-August/007905.html
http://www.oreilly.de/german/freebooks/linuxdrive2ger/debfaults.html

Pingu
21.02.05, 10:27
Da beides zwei unterschiedliche oops-Meldungen sind, glaube ich auch an einen Hardwaredefekt. Denn sosnt müßte ja jedesmal an der selben Stelle beim selben Programm/Modul die oops-Meldung kommen.


Process fsck.reiserfs (pid: 78, stackpage=c249b000)


Process modprobe.old (pid: 376, stackpage=c34e9000)

Pingu

binary trust
21.02.05, 10:37
genau das hab ich mir auch gedacht und hab die kiste erneut im normalen modus gestartet, komischerweise ist sie nun hochgefahren, zwar mit einigen fehlermeldungen aber per serieller konsole bin ich drauf und bin momentan am reparieren (reiserfschk'en). ich denk langsam auch das es an einen hardwaredefekt liegt! gibt es denn eine möglichkeit ein hardware bzw. memoryscan durchzuführen damit ich denn strato-jungs zumindest sagen kann was kaputt ist und das es nicht an dem "dummen root admin" liegt ... ?


ich hab die kiste wieder zum laufen gebracht,
bin dennoch besorgt das es bald wieder zum crash aufgrund eines hardware defektes kommt. die frage ob es tools zur hardwareprüfung gibt ist immernoch interesant!
memtest86 kann man ja nicht zur laufzeit ausführen? gibt es alternativen ?

binary trust
06.03.05, 13:01
hi,

ich wollte mich nur nochmal für denn guten tipp bedanken!
es lag wirlich an einem hardwaredefekt, vermutlich ein defekter speicherbaustein ... hardware wurde ausgewechelt und die arbeit beginnt von neuen ...