• Akademia
  • Blog
  • O Serverless
  • O stronie

Dlaczego Tw贸j biznes potrzebuje Data Lake?


Co to jest Data Lake? Definicja

Nowe rozwi膮zanie starego problemu

Jestem pewien, 偶e dok艂adnie wiesz, jak trudno jest okie艂zna膰 dane, zw艂aszcza 偶e w wielu przypadkach mamy do czynienia z przyrostem wyk艂adniczym. Dos艂ownie wszystko mo偶e nie艣膰 ze sob膮 bezcenne informacje na temat tego, co mo偶na usprawni膰 w ka偶dym aspekcie prowadzenia biznesu. Jednak w miar臋 up艂ywu czasu wielko艣膰 i ilo艣膰 tych wszystkich 藕r贸de艂, katalog贸w i miejsc staje si臋 przyt艂aczaj膮ca. A to wszystko utrudnia przetwarzanie danych.

Wszyscy intuicyjnie (a niekt贸rzy wiedz膮 to z do艣wiadczenia), 偶e zbieranie danych bez okre艣lonego celu to sztuka dla sztuki. Przygotowanie strategii dotycz膮cej danych to pierwszy krok, ale co dalej? Przyt艂aczaj膮ca ilo艣膰 藕r贸de艂 nie pomaga. A my przecie偶 potrzebujemy nie tylko surowych danych, ale tych przetworzonych, 偶eby usprawnia膰 biznes i nad膮偶a膰 za konkurencj膮.

Najprostszym sposobem zaadresowania tego problemu jest zastosowanie dobrze znanych technik 鈥 ten problem istnieje od dawna. Wiele lat temu opracowano rozwi膮zania tego problemu w postaci hurtowni danych. Wybieraj膮c takie rozwi膮zanie i agreguj膮c nasze dane w zgodzie z podej艣ciem OLAP (skr贸t od Online Analytical Processing) mo偶emy korzysta膰 z wielu lat do艣wiadcze艅 i sprawdzonych rozwi膮za艅.

Jest tylko jeden problem: taka hurtownia danych coraz cz臋艣ciej okazuje si臋 zbyt statyczna. W dzisiejszym 艣wiecie to dla wielu biznes贸w niewystarczaj膮ce podej艣cie.

Co wi臋cej, w takich zastanych rozwi膮zaniach mamy dodatkowo do czynienia z:

  • silosami, gdzie dane s膮 uwi臋zione i odizolowane od innych, przez co nie mo偶emy ich przeanalizowa膰 w szerszym kontek艣cie,
  • op贸藕nionymi danymi, bo dane docieraj膮 zbyt p贸藕no i nie mog膮 pom贸c przy wyci膮ganiu dodatkowych wniosk贸w oraz przy budowaniu przewagi,
  • dro偶yzn膮, bo koszty przeprowadzenia analizy i utrzymania przewy偶szaj膮 potencjalne zyski z wyci膮ganych wniosk贸w,
  • z艂o偶ono艣ci膮, kt贸ra pozwala na dzia艂anie i uruchomienie platformy, ale tylko kilka os贸b potrafi j膮 efektywnie wykorzysta膰,
  • ekskluzywno艣ci膮, sytuacja zwi膮zana z powy偶szym punktem, co nie pozwala na demokratyzacj臋 w wykorzystaniu danych i budowania kultury podejmowania decyzji na podstawie danych.

Maj膮c to wszystko na uwadze, zastanawiasz si臋, jak Tw贸j biznes mo偶e zbiera膰, przechowywa膰, i analizowa膰 dane w czasie rzeczywistym, tak aby dobrze sobie radzi膰 na konkurencyjnym rynku. Wszystkie wspomniane wyzwania, 艣wietnie adresuje architektura oparta o jezioro danych (ang. data lake).

Czym jest jezioro danych?

Je艣li to zupe艂nie nowy termin dla Ciebie, polecam Ci przeczyta膰 poprzedni post, kt贸ry wyja艣nia to poj臋cie. Zaraz potem zapraszam do dalszej lektury.

Je艣li ju偶 wiesz, o czym mowa 鈥 porozmawiajmy o tym, co daje nam to podej艣cie.

Jak膮 warto艣膰 niesie ze sob膮 to rozwi膮zanie?

Na pierwszy rzut oka, ca艂o艣膰 mo偶e wygl膮da膰 na niepotrzebn膮 komplikacj臋 w postaci czarnej dziury wci膮gaj膮cej Twoje dane. Dlaczego chcieliby艣my sk艂adowa膰 wszystkie dane, najlepiej w surowej postaci, w jednym miejscu?

Okazuje si臋, 偶e firmy, wykorzystuj膮ce to podej艣cie z sukcesem wyci膮gaj膮 wnioski z prowadzenia biznesu i osi膮gaj膮 znacznie lepsze wyniki ni偶 ich konkurencja. Potwierdza to badanie firmy Aberdeen, kt贸re pokazuje, 偶e firmy, kt贸re wykorzystuj膮 jeziora danych, przewy偶szaj膮 swoj膮 konkurencj臋 z tego samego sektora o 9%, w kwestii organicznego wzrostu przychod贸w.

Tacy liderzy s膮 w stanie skorzysta膰 z nowych typ贸w analityki oraz uczenia maszynowego, zaprz臋gaj膮c do tego nowe 藕r贸d艂a danych takie jak logi aplikacyjne, dane z operacji u偶ytkownik贸w, dane pochodz膮ce z medi贸w spo艂eczno艣ciowych, oraz urz膮dze艅 pod艂膮czonych do internetu. Dzi臋ki temu mog膮 szybciej zidentyfikowa膰 nowe trendy i odpowiednio zareagowa膰 na szanse, kt贸re pomagaj膮 im rozwin膮膰 ich biznes przez przyci膮gni臋cie i utrzymanie nowych klient贸w, podnoszenie produktywno艣ci, lub proaktywne utrzymanie maszyn 鈥 m贸wi膮c bardziej og贸lnie: za pomoc膮 szybkich i 艣wiadomie podejmowanych decyzji.

Jak wspomnia艂em wy偶ej, poniewa偶 taka architektura pozwala na sk艂adowanie surowych danych w jednym miejscu, a dodatkowo mamy mo偶liwo艣膰 w zasadzie dowolnej zmiany formatu, znacznie 艂atwiej jest korzysta膰 z analityki oraz uczenia maszynowego. Jest to efektywniejsze podej艣cie ni偶 w tradycyjnym, opartym o silosy, podej艣ciu. Dodatkowo dzi臋ki tej architekturze, wielu interesariuszy w ramach Twojej organizacji mo偶e korzysta膰 z analizy danych pochodz膮cego z jedynego i kompletnego 藕r贸d艂a prawdy. Dzi臋ki temu jeste艣my w stanie burzy膰 mury oraz podzia艂y w danej organizacji. Warto nadmieni膰, 偶e tak powstaj膮 innowacje, bo maj膮c tak przekrojowe dane, mo偶emy szybciej wyci膮ga膰 wnioski i lepiej reagowa膰. Takie dzia艂ania nap臋dzaj膮 ko艂o zamachowe innowacji w Twojej firmie.

Przyk艂ady zastosowa艅

Porozmawiajmy zatem o konkretnych przyk艂adach. Na pierwszy ogie艅 p贸jdzie firma Zillow z bran偶y nieruchomo艣ci, kt贸ra zbudowa艂a jezioro danych na podstawie us艂ugi Amazon S3, w kt贸rym przetrzymuje petabajty danych. Do analizy danych wykorzystuj膮 oni us艂ugi z portfolio AWS 鈥 takie jak Amazon EMR oraz Amazon Kinesis 鈥 a to wszystko w celu personalizacji i optymalizacji reklam oraz ofert, dla ponad 100 000 mieszka艅 i dom贸w.

Innym 艣wietnym przyk艂adem jest organizacja Finra, kt贸ra wykorzystuje Amazon S3 jako fundament jeziora danych oraz us艂ug臋 Amazon EMR, w celu walki z oszustwami, manipulacj膮, wykorzystaniem poufnych informacji (ang. insider trading), oraz z innymi nadu偶yciami. Koszty nowej architektury w por贸wnaniu do poprzedniej lokalnej infrastruktury zmala艂y o 60%, co potwierdza poni偶sza analiza.

Je艣li dalej Ci臋 nie przekona艂em, zwr贸膰 uwag臋 na firm臋 Redfin, gdzie wykorzystanie jeziora danych pozwoli艂o na szybkie i op艂acalne wdro偶enie innowacji dotycz膮cych zarz膮dzania portfolio dla milion贸w nieruchomo艣ci. I na koniec, Nasdaq, kt贸ry wykorzysta艂 to podej艣cie do optymalizacji wydajno艣ci, dost臋pno艣ci, i bezpiecze艅stwa przy 艂adowaniu oraz przetwarzaniu 7 miliard贸w wierszy danych dziennie.

Jak zatem AWS mo偶e Ci w tym pom贸c?

Jako dostawca, AWS dostarcza najbardziej kompletne, bezpieczne, i op艂acalne portfolio us艂ug do ka偶dego etapu, je艣li chodzi o budow臋 rozwi膮za艅 zwi膮zanych z analiz膮 danych oraz opartych o architektur臋 data lake. Znajdziemy tam us艂ugi do migracji danych, zarz膮dzania infrastruktur膮, analizy danych, wizualizacji oraz uczenia maszynowego.

Jakie us艂ugi pomagaj膮 przy budowie jeziora danych?

Przeanalizujmy poszczeg贸lne etapy i sprawd藕my o jakich us艂ugach dok艂adnie mowa.

Konfiguracja i utrzymanie

Je艣li chodzi o konfiguracj臋 jeziora danych, mamy do tego dedykowan膮, w pe艂ni zarz膮dzan膮 us艂ug臋 o nazwie AWS Lake Formation. Pozwala ona na pe艂n膮 automatyzacj臋, je艣li chodzi o budow臋 bezpiecznego jeziora danych 鈥 i mo偶emy to te偶 zrobi膰 za pomoc膮 kilku klikni臋膰. Opr贸cz tego definiujemy miejsce, gdzie b臋dziemy sk艂adowa膰 dane oraz jakie uprawnienia nale偶y zaaplikowa膰. Nast臋pnie AWS zbiera, kataloguje i organizuje dane w ramach us艂ugi Amazon S3, kt贸ra jest fundamentem, je艣li chodzi o sk艂adowanie danych, nast臋pnie konfiguruje gotowe definicje przep艂yw贸w do czyszczenia i klasyfikacji danych za pomoc膮 us艂ugi AWS Glue.

Interaktywna analiza danych

Je艣li mowa o analityce, najwa偶niejsz膮 us艂ug膮 w tej ga艂臋zi jest Amazon Athena 鈥 czyli w pe艂ni zarz膮dzany silnik zapyta艅, kt贸ry przeszukuje dane sk艂adowane w Amazon S3 oraz Amazon Glacier z wykorzystaniem standardowej sk艂adni SQL. Nie potrzebujemy tworzy膰 ani zarz膮dza膰 dodatkow膮 infrastruktur膮 鈥 wystarczy skonstruowa膰 zapytanie i w kilkana艣cie sekund otrzymamy rezultaty, p艂ac膮c tylko i wy艂膮cznie za rozmiar przeszukiwanego zbioru (to jasny motywator do utrzymywania porz膮dku i unikania tzw. bagna z danymi 鈥 ang. data swamp).

Przetwarzanie danych

My艣l臋, 偶e nie ma tutaj potrzeby przedstawia膰 jednego z najbardziej znanych serwis贸w dost臋pnych na platformie AWSAmazon EMR. S艂u偶y on do przetwarzania du偶ych zbior贸w danych za pomoc膮 Apache Spark i Apache Hadoop 鈥 a to wszystko w 艂atwy, szybki i w op艂acalny spos贸b. Ta w pe艂ni zarz膮dzana us艂uga wspiera 19 r贸偶nych rozwi膮za艅 opartych o projekty open source, wliczaj膮c w to np. zarz膮dzane notatniki Jupyter do interaktywnej analizy danych, eksploracji i wsp贸艂pracy w zespo艂ach.

Hurtownie danych

W tej ga艂臋zi r贸wnie偶 mamy do dyspozycji w pe艂ni zarz膮dzany serwis 鈥 Amazon Redshift. Pozwala on na uruchamianie z艂o偶onych, analitycznych zapyta艅 na ustrukturyzowanych petabajtowych zbiorach danych 鈥 a wszystko za mniej ni偶 1/10 kosztu rozwi膮za艅 tradycyjnych. Jedn膮 z dodatkowych us艂ug w tym zakresie jest Redshift Spectrum, kt贸ry pozwala na uruchamianie zapyta艅 SQL bezpo艣rednio na eksabajtach danych (ustrukturyzowanych lub nie) sk艂adowanych w Amazon S3, bez potrzeby ich przemieszczania czy kopiowania.

Analiza danych w czasie rzeczywistym

W tej sekcji warto zwr贸ci膰 uwag臋 na grup臋 us艂ug w ramach Amazon Kinesis. Te rozwi膮zania s艂u偶膮 do zbierania, przetwarzania, analizy i wysy艂ania danych strumieniowych do jeziora danych 鈥 mowa tu o danych telemetrycznych, logach aplikacyjnych, oraz akcjach u偶ytkownik贸w. Dzi臋ki takiemu podej艣ciu mo偶emy reagowa膰 i wyci膮ga膰 wnioski p艂yn膮ce z danych w czasie rzeczywistym, bez oczekiwania na okre艣lony moment lub pe艂en zbi贸r danych.

Analityka operacyjna

Nie wolno nam zapomina膰 o tym bardzo wa偶nym obszarze, kt贸ry jest reprezentowany przez us艂ug臋 o nazwie Amazon Elasticsearch Service. Pozwala ona na przeszukiwanie pe艂notekstowe, eksploracj臋, filtrowanie, agregacj臋 i wizualizacj臋 danych w czasie rzeczywistym. Dzi臋ki temu mo偶emy pozwoli膰 sobie na szybki i efektywny monitoring, analiz臋 log贸w aplikacyjnych, akcji u偶ytkownik贸w oraz wielu innych metryk biznesowych.

Wizualizacja danych

Dzi臋ki us艂udze Amazon QuickSight, mo偶emy zbudowa膰 imponuj膮ce wizualizacje oraz bogate panele, kt贸re b臋d膮 dost臋pne z poziomu przegl膮darki lub urz膮dze艅 mobilnych, bez potrzeby wykorzystania zewn臋trznych us艂ug.

Rekomendacje, Prognozowanie i Predykcja

W tej sekcji nale偶y wspomnie膰 o zestawie dedykowanych us艂ug. Pierwsz膮 z nich jest Amazon Personalize, kt贸ra skupia si臋 na zwi臋kszaniu zaanga偶owania u偶ytkownik贸w za pomoc膮 uczenia maszynowego, w postaci silnik贸w rekomendacji, dostosowanych wynik贸w wyszukiwania oraz celowania akcji marketingowych. To wszystko bez potrzeby w艂asnor臋cznego budowania modeli ani eksperckiej wiedzy na ten temat 鈥 wystarczy, 偶e b臋dziemy zbiera膰 dane z naszych aplikacji, a rozwi膮zanie b臋dzie w stanie rozpozna膰, co niesie ze sob膮 warto艣膰, a co jest szumem informacyjnym, jaki algorytm zastosowa膰, i jak wytrenowa膰 oraz zoptymalizowa膰 wykorzystywany silnik.

Kolejn膮 us艂ug膮 jest Amazon Forecast, kt贸ry jest us艂ug膮 w pe艂ni zarz膮dzan膮, tak jak poprzedni serwis, i dostarcza mo偶liwo艣膰 prognozowania oraz analizy trend贸w bez potrzeby i znajomo艣ci uczenia maszynowego. Warto nadmieni膰, 偶e w obu przypadkach wykorzystujemy wiedz臋 i do艣wiadczenie, z kt贸rych korzysta globalny gigant 鈥 Amazon.com.

Na sam koniec trzeba wspomnie膰 o us艂udze Amazon SageMaker. To w pe艂ni zarz膮dzany kombajn do uczenia maszynowego, kt贸ry pozwala na eksploracj臋, budowanie, trenowanie i wdra偶anie naszych modeli. Dostarcza on wszystko, co potrzebne do pracy z ML, wliczaj膮c takie elementy jak zarz膮dzanie zbiorami treningowymi, automatyczny wyb贸r algorytmu i jego optymalizacja (ang. hyperparameter tuning), szeroki wyb贸r bibliotek, oraz mo偶liwo艣膰 wdro偶enia modelu wraz z automatycznym skalowaniem maszyn wykorzystywanych do wnioskowania lub predykcji.

Podsumowanie

Zaprz臋gni臋cie danych do pracy jest jednym z najwi臋kszych wyzwa艅 rosn膮cego biznesu. Dane powinny by膰 naszym kapita艂em, a nie zobowi膮zaniem. Architektura jeziora danych daje olbrzymi膮 przewag臋 konkurencyjn膮, jest motywatorem innowacji, oraz mo偶e dostarcza膰 bezcenne informacje, kt贸re s膮 ukryte w oceanie danych.

Bynajmniej, ogarni臋cie tego oceanu nie jest prostym wyzwaniem, w szczeg贸lno艣ci, je艣li chodzi o infrastruktur臋. Dlatego ka偶da pomoc, kt贸ra jest dostarczona ze strony dostawcy chmury, jest tutaj na wag臋 z艂ota. Pozwoli to Twojej firmie skupi膰 si臋 na tym, co warto艣ciowe dla Twojego biznesu. Zamiast zwi臋ksza膰 koszty operacyjne i budowa膰 zb臋dn膮 z艂o偶ono艣膰 mo偶emy skorzysta膰 z rozwi膮za艅 w pe艂ni zarz膮dzanych.

W takim przypadku warto zaufa膰 dostawcy i skupi膰 swoje wysi艂ki na innowacji oraz budowaniu biznesu. AWS za pomoc膮 swojego bogatego portfolio us艂ug pomaga odpowiedzie膰 na potrzeby, kt贸re pojawiaj膮 si臋 na ka偶dym etapie zwi膮zanym z budowaniem jeziora danych. Teraz trzeba tylko z tego skorzysta膰.

Autor: Wojciech Gawro艅ski
Pomagam CTO, CIO, i w艂a艣cicielom biznes贸w zaprojektowa膰 oraz zaimplementowa膰 stabilne, elastyczne i tanie systemy klasy cloud-native oraz infrastruktur臋 z wykorzystaniem chmury publicznej Amazon Web Services. Ponad 12 lat do艣wiadczenia zdobytego na 25+ projektach dostarczonych do ponad 20 klient贸w w Polsce, Europie oraz USA.

Ten artyku艂 ukaza艂 si臋 oryginalnie w j臋zyku angielskim jako Why do you need a Data Lake, and how AWS can help you with that?