|
Okresowy brak komunikacji serwera z usługami
aleextra - 22-02-2009 14:29
Witam!
Administruję serwerem dedykowanym w OVH. Co jakiś czas, raz na miesiąc/kilka miesięcy następuje brak odpowiedzi z jakiejkolwiek usługi. Na pingi odpowiada. Ponieważ uruchomiłem tam pewne własne skrypty, myślałem, że to jest ich wina, ale tylko jeden z nich działa na uprawnieniach roota, do tego kilkukrotnie przejrzałem algorytm o skrypty i nie ma w nich błędów.
Po sprawdzeniu wszystkich możliwości, łącznie z tym ich śmiesznym trybem ,,rescue'' i przeprowadzeniem testów sprzętowych, uruchomiłem w cronie dwie komendy startujące co 1 minutę:l
uptime>>/root/uptime.log
l
l
date>>/root/ps.log; ps -eo pcpu,pid,user,args | sort -k 1 -r | head -10 >>/root/ps.log;echo'-------'>>/root/ps.log
l
Sytuacja powtórzyła się około godziny 6:26 Logi poniżej. uptime.log:
ps.log:
Dane o serwerze: [quote]Linux xxx.kimsufi.com 2.6.24.5-grsec-xxxx-grs-ipv4-32 #3 SMP Wed May 28 09:09:25 CEST 2008 i686 GNU/Linux[/code] lspci:
00:00.0 Host bridge: Intel Corporation 82865G/PE/P DRAM Controller/Host-Hub Interface (rev 02) 00:02.0 VGA compatible controller: Intel Corporation 82865G Integrated Graphics Controller (rev 02) 00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev c2) 00:1f.0 ISA bridge: Intel Corporation 82801EB/ER (ICH5/ICH5R) LPC Interface Bridge (rev 02) 00:1f.1 IDE interface: Intel Corporation 82801EB/ER (ICH5/ICH5R) IDE Controller (rev 02) 00:1f.2 IDE interface: Intel Corporation 82801EB (ICH5) SATA Controller (rev 02) 01:0d.0 Ethernet controller: Marvell Technology Group Ltd. 88E8001 Gigabit Ethernet Controller (rev 13)
Bardzo proszę o wskazówki, co może być nie tak. Pomoc techniczna OVH oczywiście twierdzi, że to nie z ich winy. Sprzęt sprawny. Może to jądro? ÂŁatka GRSEC?
Dziękuję bardzo za pomoc. Pozdrawiam. Ps. Zakryłem ścieżki i adres serwera. Usługi są zbyt specyficzne, żeby publicznie podawać. Ale nie mają raczej wpływu na pracę.
lis6502 - 22-02-2009 21:11
Na moich ,,kimsufi'' sytuacja nie występuje. Raz sshd się przywiesił, ale potem OVH przyznało się do awarii jakiegoś tam sprzętu sieciowego. Z tego co widzę prowadzisz tam jakiś hosting, te ode mnie mają zgoła inne przeznaczenie. Przydałyby się jeszcze logi z apacza, a w tych co masz obecnie brakuje obciążenia procesora i pamięci (a nuż jakiś wyciek pamięci?). Zauważ, że przed resetem obciążenie silnie wzrasta.
aleextra - 23-02-2009 09:02
No właśnie... Obciążenie wzrasta dokładnie w momencie jak znikają procesy. Dodam jeszcze uruchamianie free -m do skryptów i zobaczę, co tam się dzieje.
A, co do logów apache, to tam cisza i spokój :( Nic nietypowego.
Utumno - 23-02-2009 11:27
Znowu 6:25 rano. Patrz tutaj:
http://debian.linux.pl/viewtopic.php?t=13058
- nastepny gosc, ktory ma problemy z restartami o 6:25 rano .
Ja stawian dolary przeciwko orzechom, ze to jakis ,,cronjob''. Cos mi swita, ze o 6:25 standardowo w Debianie chodzi jakis ,,cronjob'' i czysci system (na pewno chodzi man-db, chociaz man-db teoretycznie nie powinien powodowac takich problemow).
lis6502 - 23-02-2009 12:09
Utumno, chyba z tym cronjobem trafiłeś w samo sedno. http://lists.debian.org/debian-user/.../msg02037.html
aleextra - 23-02-2009 22:10
Oj, to akurat ostatni restart. Wcześniej jakiegoś dnia po 17. crontab sprawdziłem. Nie wiem, czy chcę usuwać jakieś wpisy. ,,man-db'' raczej niepotrzebne jest. Ale wtedy, skoro zapisuje ,,uptime'' do pliku, to dlaczego nie zapisuje listy procesów? To bardziej mi wygląda, jakby root tracił prawa do /proc. Ale niestety nie przekierowywałem błędów do pliku, może byłby tam komunikat o nich.
lis6502 - 24-02-2009 10:48
Błędy przekierujesz
2>&1>out
takim czymś, ale to pewnie wiesz. Przejrzałeś tego linka którego przytoczyłem? Była tam mowa o ,,cronjobie run-parts''. Moim zdaniem tutaj właśnie chodzi o jakieś systemowe zadanie, któremu nie podoba się coś w systemie. Moje ,,Kimsufi'' siedzą jeszcze na Etchu (mam na myśli po reinstalacji z panelu). Spróbuj aktualizacji do Lennego.
aleextra - 28-02-2009 17:45
Zmieniłem logowanie błędów. Dodałem monitorowanie pamięci (free -m), zakomentowałem kilka wpisów z crona związanych z webminem (bw.pl i collectinfo), man-db i czekam. Jeśli to nie pomoże, zmienię kernel z jakiego jest uruchamiany serwer na któryś z możliwych do wyboru z panelu OVH.
zanotowane.pldoc.pisz.plpdf.pisz.plminister.pev.pl
|