Hajde da pogledamo karakteristike današnje Data Centar Infrastrukture:
- Nezavisne komponente (tzv. silosi): serveri, mreža, storidž sistem.
- Svaka komponenta je kompleksna i predstavlja “svet za sebe”.
- Svaka komponenta i njeni proizvođači imaju svoj način upravljanja i zasebne alate.
- U suštini koristimo tehnologiju iz 1980-ih godina (VLAN, RAID, …).
Posledice rada ovako ustrojenog sistema su KOMPLEKSNOST, NEPOVEZANOST i SLABA ISKORIŠĆENOST kapaciteta. Kako to izgleda u praksi?
OPERATIVNO UPRAVLJANJE JE STRAŠNO VREMENSKI INTEZIVNO. Da bi se aktivirala nova Aplikacija ili servis, sve tri komponente se moraju nezavisno konfigurisati. Neretko iz terminalne linije. A to rade odvojeni timovi specijalista. Budimo iskreni, oni se uglavnom ne vole međusobno. Serveraš protiv storidž administratora. I obratno. A oni zajedno protiv mrežnog admina u stilu “ma mora da je do mreže nešto”. Posledica je prebacivanje odgovornosti, sporost u rešavanju incidenata i realizaciji novih zahteva.
IT TIMOVI SE BAVE ODRŽAVANJEM POSTOJEĆEG STANJA. Umesto stvarima koje su bitne Biznisu. Kao što su nove Aplikacije ili servisi, optimizacija postojećeg stanja, povećanjem proaktivnosti, bržim odzivom na nove zahteve, testiranjem novih rešenja, pa makar i ažuriranjem dokumentacije, …
INFRASTRUKTURA JE KRHKA. Usled duboke kompleksnosti i jake spregnutnosti komponenti, promene u konfiguraciji zahtevaju detaljno planiranje i testiranje. Promene su jako stresne i zahtevaju najavu radova. Neretko uz prekid rada servisa, što zbog realne potrebe, što zbog “ne daj Bože”.
DIJAGNOSTIKA DUGO TRAJE I RADI SE NA SLEPO. Kompleksnost je delom uzrokovana sa mnogo “pokretnih delova”. Što znači da mnogo stvari može da pođe “naopako”. Usko grlo u pogledu performansi se može pojaviti na mnogo mesta. Alati za upravljanje i monitoring uglavnom su ograničenih mogućnosti. Posmatraju samo jednu komponentu Infrastrukture, a ne Sistem kao celinu. Admini se snalaze, radeći parcijalno, ograničeno testiranje i nagađanje “šac metodom” ne bi li sistemom eliminacije došli do nekih zaključaka. Posledica je sporost u rešavanju i prebacivanje odgovornosti. I SLA Aplikacija koji je sve teže ispuniti, čak i ako ne računamo vreme najavljenih radova u obračun dostupnosti.
NISKA ISKORIŠĆENOST KAPACITETA. Infrastruktura se kupuje unapred, u skladu sa PROCENJENIM, NAJGORIM slučajem budućih potreba. Pritom, uglavnom se “dodaje” barem 20% preko, kao dobra inženjerska praksa. I ovo jeste dobra praksa. Jer greška — potcenjivanje potrebnog kapaciteta — može skupo da nas košta. Ali posledica je da ima značajno neiskorišćenog kapaciteta, posebno u prvih 2-3 godine eksploatacije, dok oprema nije većim delom amortizovana. To je MRTAV KAPITAL. Procesori servera uglavnom nisu opterećeni više od 20%. Svima nam se desilo da se performanse storidža degradiraju, a pritom imamo i više nego dovoljno kapaciteta. Da ne spominjemo što je maks. iskorišćenost od samog starta 50% (i to usable, ne raw kapaciteta!) usled active-active failover-a, što je tipičan mehanizam kojim se štiti od otkaza jednog kontrolera. To je mnogo zarobljenog, mrtvog kapitala.
KOMPROMISI, KOMPROMISI, KOMPROMISI. Često se ciklusi obnavljanja opreme pojedinih komponenti ne poklapaju. Tako dođemo u situaciju da imamo npr. nove servere i stari storidž sistem. Posledica je neizbalansiran Sistem koji ne može da iskoristi svoj maksimum, jer postoji usko grlo. Sistem je jak onoliko koliko i najslabija karika. Tradicionalni storidž sistemi skaliraju vertikalno, što je veoma ograničeno i nedovoljno za većinu scenarija. Aplikacije su gladne IOPS-a koliko i RAM-a. Dodavanjem novih diskova/šasija, osim većeg kapaciteta, skaliramo i performanse. Ali nelinearno, usled ograničenja kontrolera i načina implementacije sistema generalno. I to je problem. Ako hoćemo da povećamo performanse sistema, možemo da ubacimo SSD diskove. Što zvuči kao razumna ideja. I dobićemo povećanje performansi. Ali ne u meri u kojoj smo očekivali, ne možemo iskoristiti pun potencijal SSD-a. Jer problem nismo eliminisali, samo smo usko grlo premestili sa mehaničkih diskova na kontrolere storidža. Usled duboke spregnutosti određenih specifičnih aplikacija za inicijalnu Infrastrukturu, migracije na novo okruženje su često toliko rizične da je isplativije ništa ne raditi sa dotičnim delom Infrastrukture i “održavati ga na staklenim nogama”. Da ne spominjemo skriveni rizik u formi da takav sistem obično samo “jedan čovek” u kompaniji poznaje kako treba.
BEZBEDNOSNE PRAKSE SE IMPLEMENTIRAJU NAKNADNO. A zapravo bi trebale da budu deo samog dizajna sistema. Dodatno je problematično što su komponente nezavisne i kompleksne, što povećava stepen slobode i površinu napada.
BEKAP I POLISE ZA OPORAVAK OD OTKAZA SE TEŠKO IMPLEMENTIRAJU ILI ZAHTEVAJU ZNAČAJNA FINANSIJSKA SREDSTVA. Zavisno od toga koju komponentu Infrastrukture hoćete da osigurate – bazu podataka, kompletan storidž volume, samo određene VM-ove – nažalost različito je i rešenje. Takođe, zavisno od stepena zaštite koji hoćete da postignete (RPO i RTO), nije svejedno kojeg proizvođača odabrati. Posledica je da neretko moramo da koristimo više rešenja. Prava provera rada DR mehanizma nije moguća dok do samog otkaza i ne dođe. Tradicionalno, DR je zahtevao značajna ulaganja u sekundarni sajt. Situacija je sada bolja u smislu da pojedini vendori nude DR rešenja kao servis, direktno ili preko partnera. Ali opet, štiti se samo jedan segment i ovakva rešenja su uglavnom prilično skupa.
PROCES PLANIRANJA VIŠE LIČI NA VRAČANJE NEGO NA INŽENJERSKU DISCIPLINU. Vendori često skrivaju informacije (i to vešto) ili čak otvoreno lažu kada se radi o performansama i mogućnostima opreme. Dodatno, planiranje traži predvidljivost, a IT je usled tehnoloških promena i iznenadnih zahteva Biznisa sve samo nije predvidljiv. To čini planiranje potrebnih kapaciteta skoro nemogućim. I naravno vreme kao faktor, jer nabavka opreme traje mesecima.
VENDORI STALNO POKUŠAVAJU DA NAS “ZAROBE”. Usled kompleksnosti koja postoji od prvog dana rada i kroz eksploataciju se samo povećava, skoro je nemoguće promeniti proizvođača određene opreme. Kome se desilo da je nakon 2-3 godine došlo vreme za proširivanje kapaciteta storidža i da cena platforme nove generacije bude niža od cene šasije za proširenje na staroj platformi? Rezultat je uvođenje nove platforme, koja sada predstavlja još jedan silos kojim treba upravljati. Sve i da se odlučimo za proširenje postojeće platforme, primorani smo na dodatne šasije koje samo povećavaju kompleksnost i otežavaju održavanje. Potpuno ekonomski besmislena situacija i sa strane poslovanja neprihvatljiva. Ali se ipak dešava. Vendore nije briga za nas. Vendorima je stalo da prodaju novi model uređaja, a ne da nam omoguće da “izvučemo maksimum” iz prethodnih investicija. Tehnološke inovacije koje vendori uvode su uglavnom tehnologije zatvorenog tipa. Što često zna značajno da oteža migraciju, posebno kod mrežne opreme. Da ne spominjemo kvalitet, odziv i nivo posvećenosti vendorske tehničke podrške. Koja se pritom plaća prilično lepo i uglavnom je obavezna.
ZASTARELA TEHNOLOGIJA. RAID je krajnje neefikasan. I nepraktičan u praksi. Ko još može lako da nađe identičan model diska koji je kupljen pre 3 godine? Rekonstrukcija podataka podrazumeva degradirane performanse i “držanje palčeva” da integritet podataka neće biti narušen. Usklađivanje verzija softvera kontrolera, šasija i sl. samo usporava proces i smanjuje mogućnosti izbora. A kako se štitimo od otkaza mrežnog uređaja? Tako što kupimo još jedan identičan uređaj koji “zuji” neiskorišćen, po staroj dobroj active-standby praksi. VLAN uopšte nije koncipiran da se koristi za virtuelizaciju, koja traži velike kolizione domene radi migracije VM-ova i rada ostalih servisa. Tradicionalni firewall uređaji stvaraju usko grlo i “čudan” tok za saobraćaj između VM-ova unutar Data Centra (east-west saobraćaj), što je dominantan tip saobraćaja danas.
I CAPEX I OPEX TROŠKOVI SU PREVISOKI. Capex ne bih dalje diskutovao. Svako ko je prolazio jednom nabavku, zna o kojim ciframa se radi. Opex je previsok iz više razloga. Kompleksnost i nepovezanost silosa zahteva čitave timove tehničkih specijalista, za svaki od tehničkih domena. Stručne specijaliste je sve teže (khm… i skuplje) naći i zadržati. Tu su i troškovi licenciranja, vendorske i podrške integratora, za svaki od silosa naravno. Zbog razdvojenosti komponenti i viška kapaciteta povećava se rekovski prostor koji oprema zauzima. Time i potrošnja električne energije, što za rad opreme, što za rad čilera za rashlađivanje.
Ako nastavljamo da radimo stvari na isti način, zašto očekujemo drugačije rezultate?
VREME JE ZA DRUGAČIJI PRISTUP. Duboko verujem da je način na koji je trenutna Data Centar infrastruktura implementirana neadekvatan i da je to uzrok svih problema. Data Centar današnjice je kompleksan, neintegrisan, statičan, fragilan. Teško se održava i još teže proširuje. Nemoguće je sa takvom Infrastrukturom ostvariti Viziju Enterprise Cloud-a. Nemoguće je ostvariti Infrastrukturu koja ima karakteristike Public Cloud-a kao što su jednostavnost, agilnost i fleksibilnost. Potreban nam je kompletan RESET pristupa i razmišljanja. Potreban nam je REMONT Data Centra.
Ako želiš da budeš stalno u toku sa novostima iz sveta računarstva u Oblaku, prijavi se na Bilten “Ko se boji Klauda još?”.
3 Replies to “Data Centar kompleksnost šteti Poslovanju”