Marcin Kabaj w Backup Expert Days

Bezpieczeństwo serwerów wirtualnych

W naszym komentarzu nie zajmiemy się bezpieczeństwem rozumianym jako poufność danych i związanym z nią ograniczaniem dostępu do danych produkcyjnych. Nie zajmiemy się również bezpieczeństwem rozumianym jako zapewnienie ciągłości przetwarzania. Skupimy się na bezpieczeństwie danych w sensie backupu, czyli zapewnieniu automatycznego wykonywania wielokrotnych kopii danych na wypadek ich nieautoryzowanej zmiany lub utraty, ewentualnie w celu dostępu do poprzednich wersji.

Dobre praktyki wykonywania backupu radzą:

  • jak najszybciej fizycznie odseparować dane backupowe od produkcji,
  • przechowywać na minimum dwóch różnych zasobach lub nośnikach minimum kilka lub lepiej kilkanaście kopii backupowych,
  • przechowywać przynajmniej jeden zestaw kopii odseparowany geograficznie.

Priorytetem backupu jest zawsze bezpieczeństwo, ale od dobrego systemu backupu oczekujemy również szybkiego dostępu do danych i jest to obecnie realizowane przez urządzenia dyskowe o małej latencji. Sporą popularność w ostatnich latach zyskały urządzenia dyskowe z deduplikacją (np. Quantum DXi), dzięki swojej specjalizacji do obsługi procesów backupu i odtwarzania danych.

Niektórzy sądzą, że przechowywanie backupów w obrębie systemu wirtualnego jest równie akceptowalne, a przy tym proste. Pamiętajmy, że jest to niezgodne z przedstawionymi na wstępnie praktykami i można taki zabieg stosować jedynie w połączeniu z fizycznym zabezpieczeniem danych poza systemem wirtualnym.

Backup lokalny i backup chmurowy

Dla mniejszych ilości danych i długiego dostępnego okna odtwarzania alternatywą dla taśmy może być czasem chmura, ale w innych przypadkach chmura okazuje się zbyt wolna. Przykładowo, wydajność podstawowych modeli deduplikatorów Quantum wynosi ok 10TB/h w zapisie i w odczycie, wydajność bibliotek taśmowych skaluje się podobnie, natomiast realistyczna wydajność chmury to ok. 1TB/h lub mniej.

Przy backupie ten problem jest mniej widoczny, ponieważ software można skonfigurować w taki sposób, aby typowo wykonywały się backupy przyrostowe lub różnicowe, co nawet dziesięciokrotnie zmniejszy ilość danych przesyłanych do chmury. Niestety przy odtwarzaniu danych problem wydajności w pełni się uwidoczni, w praktyce uniemożliwiając odtwarzanie pełnych backupów w zadanym oknie. W języku backupu chmura ani nie gwarantuje, ani nawet nie realizuje RTO i RPO. Jak mówią: ,,backupów można w ogóle nie wykonywać, ważne żeby się wykonało odtworzenie w krytycznej sytuacji”, więc rola chmury sprowadza się do DR, ewentualnie do odtwarzania pojedynczych plików lub małych baz danych.

Dodatkowe ograniczenia to brak gwarancji na dostępność chmury, brak gwarancji na szerokość dostępnego pasma, brak ubezpieczenia na wypadek utraty danych w chmurze oraz sam fakt upublicznienia danych przedsiębiorstwa, co w niektórych przypadkach może być formalnie zabronione, tym bardziej, że chmury mają obecnie charakter globalny i zwykle nie można zagwarantować wskazania konkretnego miejsca składowania danych w chmurze. Pamiętajmy też o RODO – gwarancja usunięcia danych z chmury może być niełatwa do uzyskania (dotyczy w szczególności wewnętrznych backupów, ew. archiwów chmury).

Dlatego zgodnie z dobrymi praktykami, kopie backupowe składujemy lokalnie, na deduplikatorze lub macierzy dyskowej oraz na bibliotece taśmowej, która zapewni automatyzację taśmowych procesów backup/restore i dodatkowo umożliwi utworzenie innego zestawu kopii w celu wysłania do odległego sejfu. W ten sposób dane będą zabezpieczone zarówno na wypadek pomyłki, błędu operatora czy aplikacji, awarii, sabotażu, ale również w przypadku kradzieży, a nawet katastrofy o dużym zasięgu. Przy obecnie dostępnej wydajności cieci WAN chmura w praktyce nadaje się wyłącznie jako alternatywa dla sejfu w celach DR, ale raczej dla mniejszych wolumenów (<10TB) i dla danych, które bez problemu można wynieść poza obszar przedsiębiorstwa.

Koszty backupu – jakie nośniki wybierać i jak backupować dane?

Bezpieczeństwo i szybki dostęp w pewnym sensie się wykluczają, tzn. łatwy dostęp do danych zwiększa ich ekspozycję na ryzyko utraty bądź nieautoryzowanej zmiany. Urządzenia dyskowe oferują małą latencję, a rozwiązania taśmowe dużą lub bardzo dużą latencję, co minimalizuje ekspozycję na różne rodzaje ryzyka. Dodajmy, że minimalna realistyczna latencja taśm to kilkadziesiąt sekund. W przypadku wielogodzinnych strumieni backupowych nie ma ona żadnego znaczenia, ale odgrywa rolę przy odtwarzaniu pojedynczych plików z różnych taśm.

Również sam charakter nośnika ma wpływ na bezpieczeństwo danych: dyski HDD/SSD/NVMe umożliwają natychmiastowe nadpisanie danych, podczas gdy taśma magnetyczna jest sekwencyjna czyli nowe dane są zawsze dopisywane do istniejących, a nadpisanie danych wymaga kilku świadomych operacji wykonywanych wyłącznie przez administratora backupu. Ponieważ tzw. czynnik ludzki jest powodem 95% sytuacji wymagających odtwarzania danych, dlatego niebagatelny wpływ na bezpieczeństwo danych ma również automatyzacja procesów backupowych realizowana przez dowolne oprogramowanie backupowe.

Drugi ważny parametr wyboru to koszt rozwiązania: przechowywanie kilkunastu kopii backupowych na dyskach to konkretny koszt inwestycyjny i eksploatacyjny, który dla codziennych backupów możemy zminimalizować poprzez stosowanie deduplikacji i kompresji. Niestety dla backupów o długich okresach retencji efekt deduplikacji jest mały i w tych obszarach mniej kosztowne jest składowane backupów na urządzeniach taśmowych.

Trzeci istotny parametr to wymóg ilości równoległych wątków backupu i odtwarzania danych:
– urządzenia dyskowe od pewnej minimalnej pojemności dysponują maksymalnym pasmem, które można podzielić na dużą ilość równoległych wątków,
– urządzenia taśmowe z kolei pozwalają na praktycznie nieograniczone zwiększanie pasma (+350MB/s na każdy dodany napęd taśmowy LTO).

Do tego możemy dodać inne wymagania: replikacja backupów, poziom symetryczności centrów danych, szyfrowanie, FC czy IP, kompatybilność z konkretnymi systemami operacyjnymi i konkretnym oprogramowaniem backupowym czy wykorzystanie chmury.

Koszt systemu dyskowego ,,D2D” jest racjonalny dla krótkich okresów retencji rzędu 2-3 miesiące. Dłuższe okresy retencji generują słabo deduplikujące się ,,ogony”, które znacznie (nawet 2-4 razy) podnoszą wymaganą pojemność użytkową i koszty całego systemu. Z kolei systemy taśmowe ,,D2T” są znacznie tańsze per TB, więc z tymi ,,ogonami” radzą sobie bardzo dobrze i niedrogo, jednak bez części dyskowej koszt rośnie ze względu na wymaganą ilość równoległych wątków, czyli kosztownych napędów taśmowych. Dlatego rozwiązania hybrydowe ,,D2D2T” stanowią obecnie najlepszy dostępny kompromis ceny, bezpieczeństwa i wydajności.

Znalezienie najlepszego rozwiązania w tej przestrzeni trzech głównych parametrów i dodatkowych czynników wymaga wiedzy, doświadczenia i odpowiedzialności stąd niebagatelna rola firm takich jak Quantum Corporation, które specjalizują się w produkcji, doradztwie i wdrażaniu systemów backupu na całym świecie, od wielu lat.