Existuje mnoho důvodů, proč se v organizacích věnovat řízení dat (Data Governance). Mezi hlavní patří potřeba spravovat data tak, aby byla zachována jejich kvalita, a také potřeba je chránit. Protože snadný přechod do cloudu v posledních letech motivoval množství organizací k přesunu dat, objevují se častěji otázky, jak data v cloudu efektivně spravovat. Jaké výzvy tato problematika přináší a jaké principy můžeme při správě dat v cloudu využít? Přináší cloud v tomto ohledu nějaké výhody?
Data Governance Cloud mluti-cloud řízení dat
Úvod
Odborník na řízení dat Robert Seiner, autor knihy Non-Invasive Data Governance (Neinvazivní řízení dat) [1] a více než 20 let také redaktor zpravodaje The Data Administration Newsletter1 , je průkopníkem konceptu „neinvazivního řízení dat“. Ve svém přístupu se Seiner zaměřuje na to, co lze udělat pro zlepšení správy dat bez zásadního narušení podnikání nebo přepracování podnikových procesů. Seiner definoval pojem řízení dat následovně: „Řízení dat je výkon a prosazování autority nad definicí, produkcí a používáním dat.“
Řízení dat zahrnuje procesy a kontrolní mechanismy, které zajišťují, že data na nejzákladnější úrovni – surová data, která organizace shromažďuje a vkládá – jsou pravdivá, přesná a jedinečná (nikoli redundantní). Zahrnuje čištění dat (neboli data scrubbing) s cílem odstranit poškozená, nepřesná nebo cizí data a odstranit duplikace, aby se eliminoval nadbytečný výskyt dat. [2]
Data bychom měli řídit od okamžiku, kdy je údaj shromážděn nebo vytvořen, až do okamžiku, kdy je tento údaj zničen nebo archivován. V průběhu tohoto celého životního cyklu dat se jejich správa zaměřuje na snadné zpřístupnění všem zúčastněným stranám, aby je mohly používat způsobem, který přináší požadované výsledky (např. poznatky, analýzy apod.) a je v souladu s regulacemi, je-li to relevantní. Řízení dat navíc musí zajistit, aby zainteresované strany získaly kvalitní integrovaný pohled na všechna data v podniku. Kvalitní data mají mnoho aspektů – musejí být správná, aktuální a konzistentní. V neposlední řadě musí být řízení dat zavedeno tak, aby byla zajištěna jejich bezpečnost dat:
- mají k nim přístup pouze oprávnění uživatelé, a to povolenými způsoby,
- jsou auditovatelná, což znamená, že všechny přístupy včetně změn jsou zaznamenávány,
- jsou v souladu s předpisy.
Účelem řízení dat je zvýšit důvěru v data. Důvěryhodnost je nezbytná k tomu, aby uživatelé mohli využívat podniková data k podpoře rozhodování, hodnocení rizik a řízení pomocí klíčových ukazatelů výkonnosti (KPI). Pomocí dat můžete zvýšit důvěru v rozhodovací proces tím, že ukážete podpůrné důkazy. [3]
Související rizika
Z ukládání dat ve veřejné cloudové infrastruktuře mívají velké organizace obavu. Obvykle nasazují své systémy na lokální úrovni a očekávají přísné zabezpečení. Vzhledem ke značnému počtu bezpečnostních hrozeb a narušení bezpečnosti ve zprávách se organizace obávají, že by se mohly stát další obětí. Tyto faktory přispívají k obavám z rizik souvisejících s ochranou před neoprávněným přístupem k citlivým údajům nebo jejich odhalením, a to od osobních údajů (PII) až po důvěrné podnikové informace, obchodní tajemství nebo duševní vlastnictví.
Rostoucí soubor předpisů, které organizace musí dodržovat, ať už se jedná o obecné nařízení Evropské unie o ochraně osobních údajů (GDPR), nebo normy specifické pro dané odvětví, dále prohlubuje obavy ohledně dohledu a kontroly dat uložených v cloudu.
V neposlední řadě správci dat a uživatelé někdy nemají dostatečný přehled o svém vlastním datovém prostředí: jaká datová aktiva jsou k dispozici, kde jsou tato aktiva umístěna a jak a zda je lze použít, kdo má a zda měl mít k datům přístup. Tato nejistota omezuje jejich schopnost dále využívat vlastní data ke zvýšení produktivity nebo zvýšení obchodní hodnoty.
Výhody řízení dat
Bezpečnost, dostupnost, kvalitu a další aspekty dat můžeme považovat za klíčové priority organizací. Stále více organizací migruje svá datová aktiva do cloudu a jejich objem neustále roste, takže bude nadále růst také potřeba efektivního řízení dat. Řízení dat není pouze kontrolním postupem. Řeší strategickou potřebu získat pro uživatele potřebné informace pomocí jasného procesu. To umožňuje získávat poznatky z více zdrojů, které byly dříve odděleny v rámci různých organizačních jednotek.
V organizacích, kde je řízení dat strategickým procesem, mohou uživatelé očekávat, že snadno najdou všechna data potřebná k plnění svých úkolů, bezpečně požádají o přístup a získají jej v rámci jednoduchého procesu s jasným časovým harmonogramem a transparentním schvalovacím procesem. Schvalovatelé a správci dat mohou očekávat, že snadno získají přehled o tom, jaká data jsou komu přístupná a jaká data jsou „mimo“ zónu kontroly správy. Ať už je cílem efektivnější provoz, nalezení dalších zdrojů příjmů, nebo dokonce přímé zpeněžení dat, strategie řízení dat poskytuje potřebné nástroje.
Dobře fungující strategie řízení dat je kombinací procesů (pro zpřístupnění dat v rámci správy), lidí (kteří spravují politiky, zavádějí přístup k datům napříč organizací a v případě potřeby rozbíjejí sila) a nástrojů, které výše uvedené usnadňují použitím technik strojového učení pro kategorizaci a indexaci dat dostupných pro vyhledávání. [3]
Přináší řízení dat umístěných v cloudu výhody?
Veřejné cloudové platformy mají mnoho funkcí, které usnadňují implementaci mechanismů pro řízení dat. V mnoha případech jsou tyto funkce v lokálních systémech nedostupné nebo nákladově příliš náročné. Lokalita dat se týká především globálních organizací, které ukládají a používají data po celém světě, ale při hlubším pohledu na regulace zjistíme, že situace není tak jednoduchá. Pokud např. chcete využívat datové centrum v centrální lokalitě (řekněme v USA, blízko potenciálních zákazníků), ale vaše společnost je německá, regulace vyžaduje, aby data o zaměstnancích zůstala na německé půdě.
Poskytovatelé veřejných cloudů nabízejí možnost ukládat data v souladu s těmito předpisy. Může být výhodné jednoduše označit datovou sadu tak, aby se nacházela v rámci regionu EU, a mít jistotu, že máme zajištěnu jak redundanci, tak soulad s předpisy (protože data nikdy neopustí EU).
Jednou z dalších výhod je snadná výkonnostní škálovatelnost. Pokud je využití dat různé nebo vyžadujeme schopnost podporovat interaktivní či příležitostné pracovní zátěže, budeme vyžadovat nekonečně škálovatelné a flexibilní výpočetní kapacity, které jsou oddělené od architektury úložiště. To je možné pouze v případě, že naše architektura zpracování dat je „bezserverová“ (serverless) nebo jasně odděluje výpočty a úložiště.
Poskytovatelé veřejných cloudů umožňují také označování či tagování dat. Tyto funkce mohou zahrnovat schopnost vyhledávat, označovat a katalogizovat položky. Je důležité mít možnost označovat data nejen z hlediska správy identit a přístupu, ale také z hlediska klasifikace informací. Pak je možné aplikovat konzistentní zásady na data napříč různými druhy úložišť.
Multi-cloud
Aplikace a systémy se obvykle nemigrují pouze na jednu cloudovou platformu. Podniky mohou používat kombinaci softwaru jako služby (SaaS), platformy jako služby (PaaS) a infrastruktury jako služby (IaaS), které budou hostovány na různých platformách, jako jsou Microsoft Azure, Amazon Web Services (AWS), Google Cloud Platform (GCP) a další. Multi-cloud znamená používání dvou nebo více systémů cloud computingu současně. Nasazení může využívat veřejné cloudy, soukromé cloudy nebo jejich kombinaci. Cílem nasazení více cloudů je nabídnout redundanci v případě selhání hardwaru/softwaru a vyhnout se uzamčení dodavatele (vendor lock). Může zahrnovat hybridní IT, ale jedná se spíše o smíšený režim s cílem vytvořit větší přidanou hodnotu pro organizaci kombinací a optimalizací cloudových řešení. [4]
V rámci problematiky řízení dat je multi-cloud nutné vzít v potaz již při návrhu naší strategie. Některé cloudové platformy dnes poskytují nástroje pro řízení dat, které umožňují zahrnout do datového katalogu i jiné než nativní druhy úložišť (např. Microsoft Azure Purview nebo Google Data Catalog). Jako pomoc při návrhu strategie řízení dat v multi-cloud prostředí je dobré vytvořit nebo přenést stávající model pro klasifikaci informací a využít jej pro označování dat v cloudu.
Principy systému řízení dat
Přehled a vyhodnocování dat
Cloudová prostředí často nabízejí ekonomicky výhodnou možnost vytváření a správy datových úložišť, ale riziko neřízené migrace dat zůstává. Toto riziko představuje potenciální ztrátu znalostí o tom, jaká datová aktiva se v datovém úložišti nacházejí, jaké informace jsou v jednotlivých objektech obsaženy a odkud tyto datové objekty pocházejí. Osvědčeným postupem pro správu dat v cloudu je získání přehledu a po suzování dat, abyste věděli, jaká datová aktiva máte. Proces hledání a posuzování dat slouží k identifikaci datových aktiv v prostředí cloudu a k vysledování a zaznamenání původu každého datového aktiva, jejich transformací a metadat.
Klasifikace dat
Správné vyhodnocení datového aktiva a prověření obsahu a jeho různých atributů může pomoci kategorizovat datové aktivum pro následnou organizaci. Z tohoto procesu lze také odvodit, zda objekt obsahuje citlivá data, a pokud ano, klasifikovat je z hlediska úrovně citlivosti dat, jako jsou osobní a soukromá data, důvěrná data nebo duševní vlastnictví apod. Chcete-li zavést řízení dat v cloudu, budete muset citlivá data profilovat a klasifikovat, abyste mohli určit, které zásady a postupy se na data budou vztahovat.
Katalogizace dat a správa metadat
Po vyhodnocení a klasifikaci datových aktiv je nezbytné zdokumentovat získané poznatky, aby uživatelé dat měli přehled o datovém prostředí vaší organizace. Musíte udržovat katalog dat, který obsahuje strukturální metadata, metadata datových objektů a posouzení úrovní citlivosti ve vztahu ke směrnicím (např. soulad s jedním nebo více předpisy o ochraně osobních údajů). Datový katalog nejenže umožňuje konzumentům dat tyto informace zobrazit, ale může také sloužit jako součást reverzního indexu pro vyhledávání a zjišťování, a to jak podle frází, tak (při správné ontologii) podle konceptů. Důležité je také porozumět formátu strukturovaných datových objektů a umožnit svým systémům, aby s těmito typy dat podle potřeby nakládaly odlišně.
Řízení kvality dat
Různí spotřebitelé dat mohou mít různé požadavky na kvalitu dat, proto je důležité zajistit prostředky pro dokumentování očekávané kvality dat, jakož i techniky a nástroje pro podporu procesu validace a monitorování dat. Procesy řízení kvality dat zahrnují vytvoření kontrolních mechanismů pro validaci, umožnění monitorování kvality a podávání zpráv, podporu procesu třídění pro posouzení úrovně závažnosti incidentů, umožnění analýzy příčin a doporučení nápravných opatření pro problémy s daty a sledování datových incidentů. Správné procesy řízení kvality dat zajistí měřitelná a důvěryhodná data pro analýzu.
Správa přístupu k datům
Správa přístupu k datům má dva aspekty. Prvním aspektem je poskytování přístupu k dostupným datům. Je důležité poskytovat datové služby, které umožní spotřebitelům přístup k jejich datům. Druhým aspektem je prevence nesprávného nebo neoprávněného přístupu. Je důležité definovat identity, skupiny a role a přidělit přístupová práva, aby byla stanovena úroveň řízeného přístupu. Tento osvědčený postup zahrnuje správu přístupových služeb a také spolupráci se službami správy identit a přístupů (IAM) poskytovatele cloudu prostřednictvím definování rolí, určování přístupových práv a správy a přidělování přístupových klíčů, aby bylo zajištěno, že k datovým aktivům budou mít přístup pouze oprávněné a ověřené osoby a systémy podle definovaných pravidel.
Auditování
Organizace musejí být schopny posoudit své systémy, aby se ujistily, že fungují tak, jak mají. Monitorování, audit a sledování (kdo, co a kdy udělal a s jakými informacemi) pomáhá bezpečnostním týmům shromažďovat data, identifikovat hrozby a jednat v případě těchto hrozeb dříve, než vyústí v poškození nebo ztrátu. Důležité je provádět pravidelné audity a kontrolovat účinnost kontrolních mechanismů, aby bylo možné rychle zmírnit hrozby a vyhodnotit celkový stav zabezpečení.
Ochrana dat
Navzdory snahám bezpečnostních IT týmů o zabezpečení perimetru jako způsobu, jak zabránit neoprávněným osobám v přístupu k datům, není zabezpečení perimetru a nikdy nebylo dostatečné pro ochranu citlivých dat. I když se vám může podařit zabránit tomu, aby se někdo naboural do vašeho systému, nejste chráněni před narušením bezpečnosti zevnitř, nebo do
konce před exfiltrací (krádeží dat). Je důležité zavést další metody ochrany dat včetně šifrování úložiště, šifrování při přenosu, maskování dat a dalších, aby bylo zajištěno, že exponovaná data nebude možné snadno přečíst neoprávněnou osobou. [3]
Příklad strategie pro řízení dat
Strategie pro řízení dat je základem pro využití dat jako klíčového faktoru pro úspěch organizace. Není to záplata na problémy s daty. Je to dlouhodobý řídící plán, který definuje lidi, procesy a technologie, jež je třeba zavést k řešení souvisejících problémů. V následující sekci se podíváme na high-level příklad strategie a požadavky na systém řízení dat v cloudu tak, jak je uvádí Microsoft Cloud Adoption Framework for Azure (CAF). [5]
Obr. 1 znázorňuje jednotlivé oblasti strategie řízení dat.
Obr. 1: Diagram strategie řízení dat
Data ingestion (vstup dat)
Klíčovým faktorem při přijímání dat je schopnost rychle zpracovat datový tok od požadavků až po produkci, a to bezpečným a vyhovujícím způsobem. Klíčové jsou prvky jako samoobslužné technologie založené na metadatech a low-code, které slouží k populaci datového úložiště. Při budování procesů zpracování dat berte v úvahu design, schopnost provádět data wrangling (zpracování hrubých dat, čištění a uložení v použitelném formátu), škálování a také možnosti distribuce dat. Klíčové je mít také podporu DevOps pro kontinuální integraci (CI). Cloudové nástroje podporují nepřeberné množství získávání dat ze zdrojů, jako je SaaS, nebo z jiných veřejných cloudů.
Úložiště
Označte a uspořádejte data ve fyzické a logické vrstvě. Organizace musejí uplatňovat příslušné požadavky na ochranu osobních údajů, zabezpečení a dodržování předpisů na základě klasifikace dat a požadavků na dodržování předpisů v odvětví, ve kterém působí. Lze využít označování dat klasifikačními značkami nebo tagy a glosáři. Dalšími klíčovými aspekty jsou katalogizace, související glosáře a samoobslužný přístup (self-service), které napomáhají zpřístupnění dat na úrovni organizace při zachování řízení přístupu.
Zpracování dat
Potřeby zpracování dat se liší v závislosti na pracovní zátěži. Např. většina zpracování velkých objemů dat obsahuje prvky zpracování v reálném čase i dávkového zpracování. Většina organizací má také prvky požadavků na zpracování časových řad a potřebu zpracovávat data pro potřeby fulltext vyhledávání.
Nejčastější organizační požadavky na zpracování pocházejí z online zpracování transakcí (OLTP). Některé pracovní úlohy vyžadují specializované zpracování, např. vysoce výkonné výpočty (HPC). Pro určité specializované pracovní zátěže poskytují cloudové platformy vysoce bezpečná prostředí (confidential computing), která pomáhají uživatelům zabezpečit data během jejich používání na veřejných cloudových platformách. Data jsou chráněna uvnitř důvěryhodného prostředí (Trusted Execution Environment – TEE). TEE chrání kód a data před prohlížením a úpravami z vnějšku. Umožňují např. trénovat modely umělé inteligence pomocí zdrojů dat z různých organizací, aniž by byla narušena důvěrnost dat.
Analytika
Extrakce, transformace a načítání dat (ETL nebo ELT podle toho, kde k transformaci dochází) se týká online analytického zpracování (OLAP) a potřeb datových skladů. Pro podporu pokročilé analytiky včetně funkcí strojového učení a umělé inteligence je klíčové zvážit možnosti opakovaného použití.
Na Obr. 2 je pro ilustraci znázorněný příklad stavebních prvků strategie řízení dat v cloudu.
Následující seznamy zahrnují příklady prvků systému pro řízení dat podle CAF: [6]
- Definice datových položek a datových entit pro vytvoření společného slovníku v glosáři
- Identifikace a vyhledávání datových položek a datových entit.
- Klasifikace dat pro řízení bezpečnosti přístupu k datům, ochrany osobních údajů a uchovávání dat.
- Lidé, jako jsou vlastníci dat s odpovědností za správu a správci dat odpovědní za ochranu a kvalitu dat.
- Procesy správy dat. Zásady a pravidla definující způsob správy konkrétních dat v průběhu jejich životního cyklu.
- Prosazování zásad napříč datovými úložišti v distribuovaném datovém prostředí
- Správa kmenových dat, aby byla data konzistentní. To může být napříč provozními a analytickými systémy, např. zákaznickými, produktovými a dodavatelskými.
- Linie metadat (data lineage).
- Technologie umožňující správu strukturovaných a nestrukturovaných dat. Správa může zahrnovat datová centra nebo multi-cloud.
Obr. 2: Příklad architektury podle Microsoft Cloud Adoption Framework
Další výzvou je, že data jsou shromažďována a ukládána na více místech. Data mohou zahrnovat údaje shromážděné a uložené v různých zeměpisných oblastech a různých právních jurisdikcích. V důsledku toho se na správu stejných dat v různých jurisdikcích mohou vztahovat různé právní předpisy. Zjistěte, jaká data existují v hybridním multicloudovém prostředí včetně geografického umístění tak, abyste:
- Pochopili, jaké atributy dat, datové entity a datové vztahy existují napříč distribuovaným datovým prostředím.
- Klasifikovali data tak, abyste věděli, jak je spravovat.
- Definovali zásady, které specifikují, jak mají být data spravována pro jednotlivé typy klasifikace.
- Prosazovali zásady kvality dat, zabezpečení přístupu k datům, ochrany soukromí a správy životního cyklu napříč distribuovaným datovým prostředím.
Dalším požadavkem je potřeba odpovědnosti. Bez odpovědnosti přetrvávají nejasnosti ohledně toho, kdo je odpovědný za řízení dat. Pokud neexistuje odpovědnost, jak si odpovíte na následující otázky?
- Kdo stanovuje metriky úspěšnosti a sleduje, jak dobře systém řízení dat funguje?
- Kdo jsou vlastníci dat?
- Kdo definuje a udržuje glosář?
- Kdo vytváří a udržuje zásady zabezpečení přístupu?
- Kdo chrání soukromí osobních údajů z hlediska shody s předpisy?
- Kdo se stará o kvalitu produkčních dat?
- Kdo zajišťuje konzistentnost údajů ve všech systémech?
- Kdo hlídá privilegované uživatele, jako jsou správci databází a datoví analytici?
Jsou zapotřebí také procesy, které umožní:
- Řídit definici a údržbu společného glosáře.
- Zjistit a identifikovat, jaká data máte, co znamenají a kde jsou uložena.
- Klasifikovat data, abyste věděli, jak je spravovat.
- Řídit definici a údržbu zásad zabezpečení přístupu k datům.
- Řídit definici a údržbu zásad ochrany osobních údajů.
- Zjistit problémy s kvalitou dat a napravit je.
- Uplatňovat zásady, aby bylo zajištěno, že budou přijata opatření pro zajištění souladu s předpisy.
A v neposlední řadě doporučuje CAF definovat následující zásady a pravidla pro řízení dat:
- Pravidla integrity dat. Zásady a pravidla pro příjem dat.
- Zásady a pravidla pro zabezpečení přístupu k datům.
- Zásady a pravidla ochrany osobních údajů.
- Zásady a pravidla kvality dat.
- Zásady a pravidla údržby dat.
- Zásady a pravidla uchovávání dat
Závěr
Dobře navržená strategie a systém řízení dat otevírá organizacím cestu k zavedení kontroly a udržení přehledu o jejich datových aktivech, což jim poskytuje konkurenční výhodu. Pokud organizace budou podporovat kulturu založenou na datech, přinese jim to mnoho výhod. Lepší přehled dostupných dat znamená, že uživatelé mohou najít data, která potřebují, kdykoli je potřebují, což zvyšuje jejich efektivitu. Rozhodování založené na datech hraje velkou roli při zlepšování strategického plánování. Systém řízení dat pomáhá organizacím snadněji auditovat své procesy, takže snižují riziko pokut a zlepšují efektivitu provozu. Díky rostoucím regulacím je pro organizace o to důležitější takové postupy zavést. Díky dobrému systému řízení dat jsou organizace dobře připravené na měnící se regulační prostředí, místo aby na něj pouze reagovaly. Při migraci většího množství dat do cloudu poskytuje řízení dat také určitou úroveň ochrany před zneužitím. A v neposlední řadě díky efektivní kontrole dodržování zásad ochrany osobních údajů pomáhá systém řízení dat ve vytvoření větší důvěry vašich zákazníků.
Tato e-mailová adresa je chráněna před spamboty. Pro její zobrazení musíte mít povolen Javascript.
POZNÁMKY POD ČAROU:
- Dostupné online z TDAN.com
POUŽITÉ ZDROJE:
[ 1 ] SEINER, Robert S. Non-invasive data governance : the path of least resistance and greatest success. 2014, ISBN 9781634620451.
[ 2 ] SMALLWOOD, Robert F. Information Governance: Concepts, Strategies and Best Practices. 2020, ISBN 9781119491408.
[ 3 ] ERYUREK, Evren. Data Governance: The Definitive Guide - People, Processes, And Tools To Operationalize Data Trustworthiness. 2021, ISBN 9788194722977.
[ 4 ] MULDER, Jeroen. Multi-Cloud Architecture and Governance. 2020, ISBN 1800203195.
[ 5 ] Microsoft Cloud Adoption Framework for Azure. [online] Dostupné z: https://docs.microsoft.com/en-us/azure/cloud-adoption-framework/
[ 6 ] Requirements for governing data in a modern enterprise. [online] Dostupné z: https://docs.microsoft.com/en-us/azure/cloud-adoption-framework/scenarios/data-management/govern-requirements