Przerwy w październiku

Wielu z Was doświadczyło w ciągu ostatniego miesiąca kilku dłuższych i krótszych przerw w dostępie do naszych usług.
Przed wszystkim chcieliśmy serdecznie przeprosić za wszelkie niedogodności. Jedyne usprawiedliwienie, które mamy to zapewnienie, że będzie lepiej, bo to co się działo było spowodowane zmianami, które zaplanowaliśmy i wdrożyliśmy w październiku, przebudowując całkowicie szkielet sieci.
Część z tych przerw to były planowane i zapowiedziane prace planowe w sieci światłowodowej, część to przełączenia i zmiany konfiguracji wykonywane w tzw. okienku serwisowym, czyli w godzinach 1:00 – 5:00. Niestety przytrafiło się nam również kilka przerw, które wynikały z naszych błędów lub problemów ze sprzętem i to za nie przede wszystkim przepraszamy.


Jesteśmy pewni, że dzięki przeprowadzonym zmianom, nasze usługi będą w przyszłości stały na jeszcze wyższym poziomie, niż w ciągu ostatnich lat.
Rozumiemy jak ważny jest obecnie sprawny i niezawodny dostęp do Internetu i dlatego zdecydowaliśmy się na inwestycję w poprawę jakości i dostępności usług.

Niżej postaramy się pokrótce opisać co się działo w ostatnich miesiącach a szczególnie tygodniach (uwaga będzie technicznie)


W czasie wakacji uruchomiliśmy nową serwerownię, wyposażoną w sprawną klimatyzację z dwoma klimatyzatorami pracującymi w układzie redundantnym oraz zasilanie gwarantowane. 
Zasilanie gwarantują UPSy i agregat prądotwórczy z systemem automatycznego startu w przypadku braku zasilania podstawowego i z zapasem paliwa na ok 24 godziny ciągłej pracy. 
We wrześniu wyposażyliśmy nową serwerownię w komplet nowego sprzętu, który zdublował funkcjonalnie sprzęt zainstalowany w starej serwerowni. 
Uruchomiliśmy nowy router BGP, nowy router BRAS, nowy router PIM, nowy przełącznik szkieletowy oraz nowy koncentrator OLT GPON.
W październiku, przy okazji prac związanych z wymianą pogryzionego przez szczura kabla, przełączyliśmy wszystkie budynki do nowego OLT w nowej serwerowni.

W kolejnym etapie wymieniliśmy sprzęt w starej serwerowni. Tutaj również uruchomiliśmy nowy router BGP, nowy router BRAS, nowy router PIM i nowy przełącznik szkieletowy. 
Obydwie serwerownie połączyliśmy dwoma kablami światłowodowymi poprowadzonymi w 95% różnymi trasami. 
Jedyne miejsca gdzie kable się spotykają to wejścia z tzw. studni zerowej do budynku, czyli ok 50-100m.
Po uruchomieniu nowego sprzętu w obydwu serwerowniach połączyliśmy go w tzw. układzie Wysokiej Dostępności, czyli układzie w którym dwa urządzenia realizujące tę samą funkcją pracują jako para i każde z nich może przestać działać a drugie przejmie w całości jego funkcje. 
Do realizacji tego zadania wykorzystaliśmy całą gamę nowych dla nas technologii i rozwiązań. 
Wszystko staraliśmy się przełączyć, wymienić, rekonfigurować przy zachowaniu ciągłości usług lub z możliwie niewielkimi przerwami, w miarę możliwości tylko okienkach serwisowych, czyli po godzinie pierwszej w nocy

Jak to niestety często w życiu bywa nie wszystko udało się zgodnie z planem. Część przerw planowych była dłuższa niż zapowiedzi, część zmian konfiguracji nie mających w założeniu wpływu na ciągłość usług spowodowała mniejsze lub większe przerwy, dwa razy oprogramowanie w nowym sprzęcie okazało się zawodne i sprzęt się zrestartował, a czasem my popełnialiśmy błędy wynikające z pośpiechu, byków w dokumentacji lub zwykłych pomyłek. Zdarzyło się również, że po zakończeniu prac nocnych wszystko wyglądało prawidłowo a rano okazywało się, że jednak usługi nie działają prawidłowo. 
Wszystko to mohliście obserwować jako dłuższe lub krótsze przerwy, czasem chwilowe pogorszenie jakości lub niedostępność części usług.

Koniec końców jednak udało się osiągnąć założony cel i od soboty 26 października wszystko działa stabilnie i zgodnie z założeniami.
My obserwujemy pracę nowej infrastruktury w obydwu serwerowniach, zbieramy dane za pomocą systemów monitoringu i wyciągamy wnioski przed ostatecznymi poprawkami. 
Do 11 października nie planujemy żadnych prac i zmian. Po tym terminie wprowadzimy jeszcze kilka zmian, które poprawią działanie protokołów zapewniających niezawodność. Planujemy również wykonanie serii testów, w tym… wyłączenie zasilania najpierw w jednej a potem w drugiej serwerowni i obserwację czy wszystko będzie nadal działało oraz jak szybko protokoły wysokiej dostępności będą przełączały usługi między urządzeniami. 
Cel to mniej niż 30 sekund przerwy dla usługi TV oraz mniej niż 3 minuty dla Internetu przy wyłączeniu urządzenia podstawowego i automatycznego przerzucenia ruchu na zapasowe. To bardzo ambitny cel ale teoria mówi, że osiągalny na wysokiej jakości sprzęcie, który posiadamy. 
Oczywiście te prace będziemy wykonywali już wyłącznie w okienkach serwisowych, chyba że zajdzie konieczność reakcji na pojawiające się w ciągu dnia problemy.

Kończąc jeszcze raz przepraszamy za wszelkie problemy, które występowały w październiku i liczymy na zrozumienie. 
Jesteśmy pewni, że dzięki przeprowadzonym zmianom, nasze usługi będą w przyszłości stały na jeszcze wyższym poziomie, niż w ciągu ostatnich lat.
Rozumiemy jak ważny jest obecnie sprawny i niezawodny dostęp do Internetu i dlatego zdecydowaliśmy się na inwestycję w poprawę jakości i dostępności usług. Teraz szkielet sieci wygląda jak na obrazku.