ďťż
 
 
   Okresowy brak komunikacji serwera z usługami
 
 

Tematy

 
    
 

 

 

 

Okresowy brak komunikacji serwera z usługami





aleextra - 22-02-2009 14:29
Witam!

Administruję serwerem dedykowanym w OVH. Co jakiś czas, raz na miesiąc/kilka miesięcy następuje brak odpowiedzi z jakiejkolwiek usługi. Na pingi odpowiada. Ponieważ uruchomiłem tam pewne własne skrypty, myślałem, że to jest ich wina, ale tylko jeden z nich działa na uprawnieniach roota, do tego kilkukrotnie przejrzałem algorytm o skrypty i nie ma w nich błędów.

Po sprawdzeniu wszystkich możliwości, łącznie z tym ich śmiesznym trybem ,,rescue'' i przeprowadzeniem testów sprzętowych, uruchomiłem w cronie dwie komendy startujące co 1 minutę:l uptime>>/root/uptime.log l l date>>/root/ps.log; ps -eo pcpu,pid,user,args | sort -k 1 -r | head -10 >>/root/ps.log;echo'-------'>>/root/ps.log l Sytuacja powtórzyła się około godziny 6:26 Logi poniżej.
uptime.log: ps.log: Dane o serwerze:
[quote]Linux xxx.kimsufi.com 2.6.24.5-grsec-xxxx-grs-ipv4-32 #3 SMP Wed May 28 09:09:25 CEST 2008 i686 GNU/Linux[/code]
lspci: 00:00.0 Host bridge: Intel Corporation 82865G/PE/P DRAM Controller/Host-Hub Interface (rev 02)
00:02.0 VGA compatible controller: Intel Corporation 82865G Integrated Graphics Controller (rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev c2)
00:1f.0 ISA bridge: Intel Corporation 82801EB/ER (ICH5/ICH5R) LPC Interface Bridge (rev 02)
00:1f.1 IDE interface: Intel Corporation 82801EB/ER (ICH5/ICH5R) IDE Controller (rev 02)
00:1f.2 IDE interface: Intel Corporation 82801EB (ICH5) SATA Controller (rev 02)
01:0d.0 Ethernet controller: Marvell Technology Group Ltd. 88E8001 Gigabit Ethernet Controller (rev 13) Bardzo proszę o wskazówki, co może być nie tak. Pomoc techniczna OVH oczywiście twierdzi, że to nie z ich winy. Sprzęt sprawny. Może to jądro? ÂŁatka GRSEC?

Dziękuję bardzo za pomoc.
Pozdrawiam.
Ps. Zakryłem ścieżki i adres serwera. Usługi są zbyt specyficzne, żeby publicznie podawać. Ale nie mają raczej wpływu na pracę.



lis6502 - 22-02-2009 21:11
Na moich ,,kimsufi'' sytuacja nie występuje. Raz sshd się przywiesił, ale potem OVH przyznało się do awarii jakiegoś tam sprzętu sieciowego. Z tego co widzę prowadzisz tam jakiś hosting, te ode mnie mają zgoła inne przeznaczenie.
Przydałyby się jeszcze logi z apacza, a w tych co masz obecnie brakuje obciążenia procesora i pamięci (a nuż jakiś wyciek pamięci?). Zauważ, że przed resetem obciążenie silnie wzrasta.



aleextra - 23-02-2009 09:02
No właśnie... Obciążenie wzrasta dokładnie w momencie jak znikają procesy.
Dodam jeszcze uruchamianie free -m do skryptów i zobaczę, co tam się dzieje.

A, co do logów apache, to tam cisza i spokój :( Nic nietypowego.



Utumno - 23-02-2009 11:27
Znowu 6:25 rano. Patrz tutaj:

http://debian.linux.pl/viewtopic.php?t=13058

- nastepny gosc, ktory ma problemy z restartami o 6:25 rano .

Ja stawian dolary przeciwko orzechom, ze to jakis ,,cronjob''. Cos mi swita, ze o 6:25 standardowo w Debianie chodzi jakis ,,cronjob'' i czysci system (na pewno chodzi man-db, chociaz man-db teoretycznie nie powinien powodowac takich problemow).



lis6502 - 23-02-2009 12:09
Utumno, chyba z tym cronjobem trafiłeś w samo sedno.
http://lists.debian.org/debian-user/.../msg02037.html



aleextra - 23-02-2009 22:10
Oj, to akurat ostatni restart. Wcześniej jakiegoś dnia po 17. crontab sprawdziłem. Nie wiem, czy chcę usuwać jakieś wpisy. ,,man-db'' raczej niepotrzebne jest. Ale wtedy, skoro zapisuje ,,uptime'' do pliku, to dlaczego nie zapisuje listy procesów? To bardziej mi wygląda, jakby root tracił prawa do /proc. Ale niestety nie przekierowywałem błędów do pliku, może byłby tam komunikat o nich.



lis6502 - 24-02-2009 10:48
Błędy przekierujesz 2>&1>out takim czymś, ale to pewnie wiesz. Przejrzałeś tego linka którego przytoczyłem? Była tam mowa o ,,cronjobie run-parts''. Moim zdaniem tutaj właśnie chodzi o jakieś systemowe zadanie, któremu nie podoba się coś w systemie. Moje ,,Kimsufi'' siedzą jeszcze na Etchu (mam na myśli po reinstalacji z panelu). Spróbuj aktualizacji do Lennego.



aleextra - 28-02-2009 17:45
Zmieniłem logowanie błędów. Dodałem monitorowanie pamięci (free -m), zakomentowałem kilka wpisów z crona związanych z webminem (bw.pl i collectinfo), man-db i czekam.
Jeśli to nie pomoże, zmienię kernel z jakiego jest uruchamiany serwer na któryś z możliwych do wyboru z panelu OVH.
  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • minister.pev.pl

  •  

     


     

     
    Copyright 2003. MĂłj serwis