PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Dateisystem voll



Mauri10
02.02.06, 09:56
Morgen

Folgendes Szenario:

Es dreht sich um einen SuSE 10.0 Server auf dem jediglich Samba läuft. Für die Dateifreigabe werden 2x 160 GB SATA Platten verwendet im Spiegel Raid, sowie eine externe 300 GB USB Festplatte für die Datensicherung (läuft über cron).
Das System selber läuft auf einer 36 GB SATA Platte, und diese Platte ist voll. Ein df -h sagt mir das 100% bei / voll ausgenutzt sind!

Nun hatte ich hier im Forum bereits den Tip gelesen, zunächst mal nach dem Übeltäter zu suchen mittels

du -xk / | sort -n | tail -50

nur hat mir diese Ausgabe im Prinzip dasselbe gesagt wie df -h, nämlich das / voll ist. Desweiteren habe ich nach einer .recycle gesucht, für welche in dem genannten Thread Samba schuld war, aber auch hier Fehlanzeige. Die smb.conf ist sehr einfach gestrickt und enthält nichts was ich nicht auch schon bei anderen Samba Servern eingetragen hätte.

Was mir schon eher sorgen macht, ist die /var/log/messages. Die quillt über und seit 7 Tagen wurde nichts mehr hinzugefügt (klar, wie auch, Dateissystem ist ja voll).



Jan 23 15:53:33 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'umount'
Jan 23 15:53:33 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'mount'
Jan 23 15:53:33 Server kernel: EXT2-fs warning: mounting unchecked fs, running e2fsck is recommended
Jan 23 15:53:44 Server kernel: usb 5-3: reset high speed USB device using ehci_hcd and address 2
Jan 23 15:54:28 Server kernel: usb 5-3: reset high speed USB device using ehci_hcd and address 2
Jan 23 15:54:44 Server kernel: usb 5-3: reset high speed USB device using ehci_hcd and address 2
Jan 23 15:56:10 Server kernel: usb 5-3: reset high speed USB device using ehci_hcd and address 2
Jan 23 15:56:25 Server kernel: usb 5-3: reset high speed USB device using ehci_hcd and address 2
[...]
Jan 24 11:57:45 Server syslog-ng[4092]: STATS: dropped 28
Jan 24 12:57:45 Server syslog-ng[4092]: STATS: dropped 0
Jan 24 13:15:17 Server submountd: mount failure, No such file or directory
Jan 24 13:15:17 Server kernel: subfs: unsuccessful attempt to mount media (256)
Jan 24 13:15:17 Server submountd: mount failure, No such file or directory
Jan 24 13:15:17 Server kernel: subfs: unsuccessful attempt to mount media (256)
Jan 24 13:15:17 Server submountd: mount failure, No such file or directory
Jan 24 13:15:17 Server kernel: subfs: unsuccessful attempt to mount media (256)
Jan 24 13:15:17 Server submountd: mount failure, No such file or directory
Jan 24 13:15:17 Server kernel: subfs: unsuccessful attempt to mount media (256)
Jan 24 13:15:17 Server submountd: mount failure, No such file or directory
Jan 24 13:15:17 Server kernel: subfs: unsuccessful attempt to mount media (256)
Jan 24 13:15:17 Server run-crons[20475]: taeglich returned 1
Jan 24 13:38:00 Server smbd[18854]: [2006/01/24 13:38:00, 0] smbd/nttrans.c:call_nt_transact_ioctl(2338)
Jan 24 13:38:00 Server smbd[18854]: call_nt_transact_ioctl(0x90073): Currently not implemented.
Jan 24 13:57:45 Server syslog-ng[4092]: STATS: dropped 12
[...]
Jan 24 21:37:09 Server kernel: EXT2-fs warning: mounting unchecked fs, running e2fsck is recommended
Jan 24 21:47:51 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'umount'
Jan 24 21:47:52 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'mount'
Jan 24 21:47:52 Server kernel: EXT2-fs warning: mounting unchecked fs, running e2fsck is recommended
Jan 24 21:55:53 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'umount'
Jan 24 21:55:53 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'mount'
Jan 24 21:55:53 Server kernel: EXT2-fs warning: mounting unchecked fs, running e2fsck is recommended
Jan 24 21:57:49 Server syslog-ng[4092]: STATS: dropped 9
[...]
Jan 26 10:10:26 Server kernel: EXT2-fs error (device sdd1): read_inode_bitmap: Cannot read inode bitmap - block_group = 971, inode_bitmap = 31817729
Jan 26 10:10:26 Server kernel: scsi6 (0:0): rejecting I/O to dead device
Jan 26 10:10:26 Server kernel: scsi6 (0:0): rejecting I/O to dead device
Jan 26 10:10:26 Server kernel: EXT2-fs error (device sdd1): ext2_get_inode: unable to read inode block - inode=6717441, block=13434882
Jan 26 10:10:26 Server kernel: scsi6 (0:0): rejecting I/O to dead device
Jan 26 10:10:26 Server kernel: scsi6 (0:0): rejecting I/O to dead device
Jan 26 10:10:26 Server kernel: EXT2-fs error (device sdd1): ext2_get_inode: unable to read inode block - inode=2, block=12
Jan 26 10:10:26 Server kernel: scsi6 (0:0): rejecting I/O to dead device
Jan 26 10:10:27 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'umount'
Jan 26 10:10:27 Server kernel: scsi6 (0:0): rejecting I/O to dead device
Jan 26 10:10:32 Server kernel: Vendor: ST330083 Model: 1A Rev: 3.03
Jan 26 10:10:32 Server kernel: Type: Direct-Access ANSI SCSI revision: 00
Jan 26 10:10:32 Server kernel: SCSI device sdd: 586072368 512-byte hdwr sectors (300069 MB)
Jan 26 10:10:32 Server kernel: sdd: assuming drive cache: write through
Jan 26 10:10:32 Server kernel: SCSI device sdd: 586072368 512-byte hdwr sectors (300069 MB)
Jan 26 10:10:32 Server kernel: sdd: assuming drive cache: write through
Jan 26 10:10:32 Server kernel: sdd: sdd1 sdd2
Jan 26 10:10:32 Server kernel: Attached scsi disk sdd at scsi7, channel 0, id 0, lun 0
Jan 26 10:10:32 Server kernel: Attached scsi generic sg3 at scsi7, channel 0, id 0, lun 0, type 0
Jan 26 10:10:32 Server kernel: usb-storage: device scan complete
Jan 26 10:10:32 Server hal-subfs-mount[11819]: The volume is already mounted to: /media/usbdisk
Jan 26 10:10:32 Server hal-subfs-mount[11823]: SYMLINKS:: disk/by-id/usb-ST330083_1A_354E463054373636 disk/by-path/usb-354E463054373636:0:0:0
Jan 26 10:10:32 Server hal-subfs-mount[11823]: Can't set extended attribut!
Jan 26 10:10:32 Server hal-subfs-mount[11823]: MOUNT_POINT:: /media/usbdisk
Jan 26 10:10:32 Server hal-subfs-mount[11823]: MOUNTPOINT:: /media/usbdisk
Jan 26 10:10:32 Server hal-subfs-mount[11823]: Collected mount options and Called(0) /bin/mount -t subfs -o fs=ext2,sync,nosuid,nodev,exec /dev/sdd2 "/media/usbdisk"
Jan 26 10:10:32 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'mount'
Jan 26 10:10:32 Server kernel: EXT2-fs warning: mounting unchecked fs, running e2fsck is recommended
Jan 26 10:10:35 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'umount'
Jan 26 10:12:11 Server smbd[10883]: [2006/01/26 10:12:11, 0] smbd/nttrans.c:call_nt_transact_ioctl(2338)
Jan 26 10:12:11 Server smbd[10883]: call_nt_transact_ioctl(0x90073): Currently not implemented.
Jan 26 10:15:47 Server kernel: lease broken - owner pid = 6677
Jan 26 10:17:09 Server kernel: lease broken - owner pid = 6677
Jan 26 10:18:05 Server kernel: lease broken - owner pid = 6677
Jan 26 10:35:36 Server run-crons[11860]: woechentlich returned 1
Jan 26 10:44:53 Server smbd[12087]: [2006/01/26 10:44:53, 0] smbd/nttrans.c:call_nt_transact_ioctl(2338)
Jan 26 10:44:53 Server smbd[12087]: call_nt_transact_ioctl(0x90073): Currently not implemented.
Jan 26 10:58:01 Server syslog-ng[4092]: STATS: dropped 422
Jan 26 11:25:00 Server syslog-ng[4092]: io.c: do_write: write() failed (errno 28), No space left on device
Jan 26 11:25:00 Server syslog-ng[4092]: pkt_buffer::do_flush(): Error flushing data
Jan 26 11:58:01 Server syslog-ng[4092]: STATS: dropped 2
Jan 26 12:58:02 Server syslog-ng[4092]: STATS: dropped 0
Jan 26 13:15:01 Server run-crons[13385]: logrotate returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse-clean_catman returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse-do_mandb returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse.de-backup-rc.config returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse.de-backup-rpmdb returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse.de-check-battery returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse.de-clean-tmp returned 1
Jan 26 13:15:01 Server run-crons[13385]: suse.de-cron-local returned 1
Jan 26 13:15:01 Server run-crons[13385]: taeglich returned 1
Jan 26 13:58:02 Server syslog-ng[4092]: STATS: dropped 0
Jan 26 14:38:12 Server smbd[13634]: [2006/01/26 14:38:12, 0] smbd/nttrans.c:call_nt_transact_ioctl(2338)
Jan 26 14:38:12 Server smbd[13634]: call_nt_transact_ioctl(0x90073): Currently not implemented.
Jan 26 14:58:03 Server syslog-ng[4092]: STATS: dropped 2
Jan 26 15:58:03 Server syslog-ng[4092]: STATS: dropped 0
Jan 26 16:45:23 Server smbd[6677]: [2006/01/26 16:45:23, 0] smbd/service.c:make_connection(798)
Jan 26 16:45:23 Server smbd[6677]: student (192.168.228.23) couldn't find service buero
Jan 26 16:45:23 Server smbd[6677]: [2006/01/26 16:45:23, 0] smbd/service.c:make_connection(798)
Jan 26 16:45:23 Server smbd[6677]: student (192.168.228.23) couldn't find service buero
Jan 26 16:45:26 Server smbd[6677]: [2006/01/26 16:45:26, 0] smbd/service.c:make_connection(798)
Jan 26 16:45:26 Server smbd[6677]: student (192.168.228.23) couldn't find service buero
Jan 26 16:45:45 Server smbd[6677]: [2006/01/26 16:45:45, 0] smbd/service.c:make_connection(798)
Jan 26 16:45:45 Server smbd[6677]: student (192.168.228.23) couldn't find service buero
Jan 26 16:58:03 Server syslog-ng[4092]: STATS: dropped 8
Jan 26 17:58:04 Server syslog-ng[4092]: STATS: dropped 0
Jan 26 18:58:04 Server syslog-ng[4092]: STATS: dropped 0
Jan 26 19:00:01 Server /usr/sbin/cron[16050]: (root) CMD (cd /etc/cron.daily; ./taeglich 2>&1> /dev/null)
Jan 26 19:00:09 Server udevd[2300]: get_netlink_msg: no ACTION in payload found, skip event 'mount'
Jan 26 19:00:09 Server kernel: EXT2-fs warning: mounting unchecked


Die komplette Datei war zu lang, daher hab ich Sachen rausgefischt, also nicht wundern über die "[...]".
Zur Info: sda2 ist die Systemplatte, und sdd ist die externe Platte (sdd1, sdd2).
So langsam bin ich mit meinem Latein am Ende, hab sowas noch nie erlebt. Achso, kleiner Hinweis noch: Laut top liegt der RAM Verbrauch bei 1 GB und der Rechner hat nur 1GB, allerdings hab ich gelesen das es bei Linux normal ist (Je mehr RAM Verbrauch, desto besser).

Ich hoffe ihr habt noch entscheidende Tips für mich.

Danke schon mal...

Mauri

HEMIcuda
02.02.06, 10:06
Was Du wegen dem RAM-Verbrauch gehoert hast, ist richtig. Ungenutzter RAM ist verschwendeter RAM.
Was Dein Problem angeht: Ich vermute mal, dass Du eine einzige Partition fuer das gesamte System veranschlagt hast. Das kann in Kombination mit wild angelegten temporaeren Dateien oder amoklaufenden Applikationen, die Dir die Log-Dateien zuspammen etwas hinderlich sein.
Du kannst ja mal gucken, wie viel Platz /tmp und /var/log beanspruchen (mit du -sh).
Zusaetzlich wuerde ich Dir mindestens raten, ein Programm wie logrotate zu installieren, besser noch, zusaetzlich das System neu zu partitionieren und eine Aufsplittung in /, /usr und /var vornehmen und /tmp mittels tmpfs im RAM erstellen.

Hoffe, Dir ein bisschen weitergeholfen und einige Anregungen gegeben zu haben.

'cuda

MiGo
02.02.06, 11:47
du -xk / | sort -n | tail -50
nur hat mir diese Ausgabe im Prinzip dasselbe gesagt wie df -h, nämlich das / voll ist.
Ein wenig Mitdenken (und die Man-Seiten lesen) hätte dir verraten, dass der Befehl dir die grössten "Platzverbraucher" auf dem System zeigt, du also somit weisst, wo du vermutlich mit dem Löschen beginnen kannst.


Desweiteren habe ich nach einer .recycle gesucht, für welche in dem genannten Thread Samba schuld war, aber auch hier Fehlanzeige.
Eine volle Festplatte hat nicht immer die gleiche Ursache...
Wie immer gilt: /var und /tmp sind die üblichen Verdachtigen. Insbesondere /var/log müllt gerne bei Fehlern das System zu (und man kann in dem Ordner eigentlich bedenkenlos alles löschen ;))
Wenn du den Befehl von oben eingrenzt (mit z.b. "du /var --h --max-depth 1" (selbiges zeigt dir die Grössen der Ordner in /var an)) wirst du den Schuldigen schon recht schnell finden.

obzidian
02.02.06, 12:45
Klitzekleiner Schreibfehler, es muß du /var -h --max-depth 1 heißen.

marcdevil
02.02.06, 12:52
nagios, munin oder ähnliches hätte dich schon viel eher gewarnt, nur mal so als tip,... aber nachher ist man immer klüger...

MiGo
02.02.06, 14:18
Ups, hast recht obzidian *peinlich*

Mauri10
02.02.06, 14:36
Ok, danke schonmal.
Auf die Idee die Manpage von du mal zu lesen, hätte ich auch selber kommen können, dabei sollte ich es eigentlich besser wissen :rolleyes:
Jedenfalls werde ich mir dann mal /var und /tmp vorknöpfen. Das System ist tatsächlich in eine Partition gestopft, wie es halt üblich ist bei SuSE. Bei der Installation habe ich auch gar nicht dran gedacht (auch hier sollte ich es eigentlich besser wissen).
Das ganze ist ein Problem für mich, welches ich einfach nicht nachvollziehen kann, deshalb kannte ich beispielsweise auch noch nicht das Programm Nagios. Ich bin es gewohnt das ich die Teile installiere, in die Ecke stelle und gut is (oder ist das nur bei den neueren SuSE Versionen ein Problem?).

Na ja, gut. Jedenfalls kann ich erst am Montag Bericht erstatten. Vielen Dank für die schnellen Tips / Antworten / Hinweise ... ;)

Mauri

MiGo
02.02.06, 19:21
Das ganze ist ein Problem für mich, welches ich einfach nicht nachvollziehen kann ... (oder ist das nur bei den neueren SuSE Versionen ein Problem?)
Nein, dass kann dir überall passieren. Sobald irgendeine Software anfangt 20 Fehlermeldungen/Sekunde ins Syslog zu schreiben sind auch grosse Platten recht schnell voll. Ein beliebter Trick ist auch, grosse Dateien in ein Verzeichnis zu speichern, von dem man fälschlicherweise annimmt, es sei auf einem grösserem Device gemountet...

marcdevil
03.02.06, 08:31
Nein, dass kann dir überall passieren. Sobald irgendeine Software anfangt 20 Fehlermeldungen/Sekunde ins Syslog zu schreiben sind auch grosse Platten recht schnell voll.
die standard-log dateien, wie syslog, messages, access_log, usw sollten eigentlich bei jeder Distri von logrotate kleingehalten werden, das muss was anderes sein...

MiGo
03.02.06, 18:23
die standard-log dateien, wie syslog, messages, access_log, usw sollten eigentlich bei jeder Distri von logrotate kleingehalten werden, das muss was anderes sein...
Ich kann mich nur dran erinnern, dass ich Logrotate immer nachinstallieren musste...
Und Logrotate hilft halt gar nichts mehr, wenn ein Prozess, dessen Logs nicht von Logrotate erfasst werden, Amok läuft. Oder Wenn die Platte voll ist, bevor Logrotate aufräumen kann.
Insbesondere die "~/.xsesson.errors" ist so ein Kandidat (ich meine mich zu erinnern, dass es hier im Fourm mal den Fall gab, dass X bei jeder Positionsveränderung(!) des Mauszeigers in die Datei einen Fehler schrieb... sowas geht antürlich nicht lange gut *g*