Menu

Jak vhodně ukládat data – banky a telco (data lake vs. data warehouse)

17. března 2021/Johnson Darkwah

Kvalita a způsob ukládání dat v data lake a data warehouse

Terminologie

Na úvod bych chtěl krátce upozornit na problematiku terminologie: V současné době můžete u firem narazit na termín „nový data warehouse“, který ale nemá s tradičním pojetím data warehouse moc společného. Možná snad jen to, že se do něj přistupuje pomocí SQL jazyku. Co se týče architektury dat se ale jedná o naprosto rozdílné entity.

Nová vlna data warehouse

Dříve než začneme hovořit o nejnovějších vlnách technologií u data warehouse (Snowflake nebo Singlestore) stavěných primárně pro provoz v cloudu, chtěl bych se vrátit zpátky do bodu, kde začalo vše vznikat. My v Gauss Algorithmic zatím pracujeme s pojmem data warehouse jako s tradiční relační databází. Architektura se značně liší od data lake, který se snaží distribuovat výpočetní výkon k umístění dat. Data warehouse naopak využívá centrální systém a data získává pomocí klasických metod.

Zkušenosti od mobilního operátora

V minulosti jsem si vyzkoušel přechod z data warehouse na data lake a popíšu vám, v jaké situaci jsme byli a proč jsme se pro takový krok rozhodli. Data warehouse má nevýhodu v tom, že se výpočetní výkon od určitého množství těžko škáluje. Osobně jsem to zažil na projektu pro telekomunikačního giganta Sprint Corporation, v té době čtvrtého největšího mobilního operátora v USA, pro nějž jsme tenkrát zpracovávali analytiku týkající se provozu SMS.

Proč jde výkon dolů

Technologicky je sice možné data warehouse škálovat, nicméně podle mé zkušenosti zhruba od osmé instance začíná výpočetní výkon degradovat (klient používal Oracle Real Application Cluster). A proč šel výkon dolů? Dosáhli jsme maximální propustnosti diskového pole. V té chvíli jsme se museli začít dívat po jiných technologiích, které by tohle množství dat zvládly zpracovat. Zvolili jsme tehdy technologii Hadoop a mohlo nám to vyřešit náš problém, a to uskladnit velké množství dat po delší dobu. To bylo, abych vás uvedl do kontextu, zhruba před 12 lety.

Regulace u bank a telca

Mobilní operátoři, podobně jako například banky, podléhají regulacím a musí ze zákona uchovávat určitá data po předepsanou dobu. Někdy i dvacet let dozadu. V takovém případě náklady na data warehouse bývají i pro veliké banky neúnosné a hledají jiné cesty.

Mimo to je mezi data warehouse a data lake velký rozdíl i ve zpracování informací. Tradiční data warehouse používá metodiku ETL (Extract Transform Load) a ve své podstatě se během zpracování snaží data připravit do konečné podoby. Nevýhoda toho je, že poté zbývá málo možností, jak data opravit, pokud by nastala chyba anebo pokud byste se třeba rozhodli změnit byznys model a zpracovávat data jinak. S tímto přístupem totiž nemáte tolik flexibility. Například u inovačních projektů, které se často mění a vyžadují neustálé iterace, bych zvolil jiné řešení.

Kopie surových dat

Vždycky klientům doporučuji, aby si uchovávali kopii původních surových informací, pokud je to jen trošku možné. Ideálně po co nejdelší dobu. Ukládání surových dat na data warehouse se zpravidla neděje, jelikož to brzy začne být poměrně nákladné.

Data lake pracuje podle metodiky ELT (Extract Load Transform) – všimněte si, že oproti data warehouse se jen prohodila písmenka a ukazuje to na opačný postup při práci s daty. U data lake se data nejdříve uloží a poté dochází k transformaci do požadované struktury, kdežto u data warehouse se data prvně transformují a až následně se uloží.

Metodika data lake nám tedy umožňuje měnit schémata při čtení dat. Pokud máte surová data a rozhodnete se pro jiné schéma informací, chcete je doplnit nebo obohatit, nabízí vám data lake větší manévrovací prostor.

Ukládání dat

Možná právě teď i vy řešíte podobný problém s ukládáním dat. Pokud ano, ozvěte se mi a společně probereme, jaká možnost by pro vás byla nejlepší. Mám mnohaleté zkušenosti hlavně z oboru bankovnictví a telco a rád se s vámi o ně podělím.

Chcete vědět víc?

Podívejte se na záznam z webináře o moderních datových infrastrukturách s Johnsonem Darkwah.

Líbí se vám článek? Sdílejte jej.

K tématu by vás mohlo zajímat

Webinar: A New era. Modern Big Data infrastructures
Webinar: A New era. Modern Big Data infrastructures17. března 2021

The world of big data is constantly changing. Why are people talking about modernizing their data infrastructure?

Více informací o Webinar: A New era. Modern Big Data infrastructures
Rozdíly mezi Data Lake a Data Warehouse
Rozdíly mezi Data Lake a Data Warehouse20. června 2018

Zatímco ještě před 5 lety byl Data Warehouse neotřesitelným vládcem firemních datacenter, dnes se musí o svoji pozic...

Více informací o Rozdíly mezi Data Lake a Data Warehouse

Přečtěte si dále

[LWM] Entity recognition 2

31. 7. 2021Čtěte více o [LWM] Entity recognition 2

[LWM] NLP: text summarization

31. 7. 2021Čtěte více o [LWM] NLP: text summarization

[LFM] Intro to NLP

31. 7. 2021Čtěte více o [LFM] Intro to NLP

Máte zájem o naše služby?

Kontaktujte nás

Sbíráme anonymní data a měříme, abychom náš web mohli dále vylepšovat. Souhlasíte se sběrem cookies?

AnoNe, více informací