Data Management

Op weg naar een managed data platform

Met deze blog wil ik een impressie geven van data catalogs. Een onderwerp dat steeds meer aandacht krijgt. En terecht, volgens mij.

Aanleiding is mijn deelname aan een op 21 juni door Informatica organiseerde “Partner architect session”. Onderwerp was de Enterprise Data Catalog, verkort EDC genoemd. Met dit product kan meta data van allerlei soorten (data)bronnen integraal worden vastgelegd. Wat breder in de markt kijkend zijn er vele tools die data catalog functionaliteit bieden. Wat EDC zich daarin onderscheidt is dat het een op machine learning gebaseerde oplossing voor meta data is. Dan wordt de matrkt een stuk kleiner (Forrester, Q2 2018).

De technologie achter EDC is een big data platform (met o.a. Spark, HBase, SolR), waarbij machine learning (ML) technologie wordt ingezet om data vanuit de inhoud te beoordelen en qua betekenis suggesties te doen (recommendation). De input daarvoor is de profiling techniek, waarbij voor alle ingeladen databronnen op het niveau van data element de status in kaart wordt gebracht. Die status omvat o.a. de “List of Values”, vullingsgraad en aantallen. Die AI component heet CLAIRE en wordt overigens ook in andere Informatica producten als Secure@Source toegepast.

Zoals we Informatica ook kennen zijn zij een platformonafhankelijke partij. Om die reden is hun technologie uitermate slim ontworpen en daarmee generiek inzetbaar. EDC heeft dan ook koppelingen met veel platformen (databases, filesystemen), modelleringtools (datamodellering, gegevensverwerking/ETL, procesmodellering), rapportage- en datamanagement tools. Als er maar sprake is van een reporsitory-achtige opzet. Zo is Tableau wel koppelbaar, maar Data Factory en PowerBI (nog) niet.
Natuurlijk koppelt EDC ook met de eigen tools die onderdeel zijn van haar “Intelligent data platform”. Bijzonder daarin te benoemen is het product AXON voor data governance, waarmee data stewards hun data vanuit een business context kunnen beheren, de business terminologie en concepten. Voor een compleet overzicht voor meta data integratie, zie http://www.metaintegration.net/Products/MIMB/SupportedTools.html.

Maar hoe integreer je dan al die voor het gevoel losse bronnen met meta data? De wijze waarop EDC aan meta data structuur geeft is met klasses, de relaties tussen die klasses (associaties) en attributen. Naast natuurlijk een naam en definitie wordt de data op inhoud beschreven met o.a. een referentietabel, een businessrule of een reguliere expressie. Door data elementen te combineren kunnen er nieuwe begrippen worden gecreëerd (entity). Zo kunnen bijvoorbeeld straat, huisnummer, postcode en woonplaats gecombineerd worden tot “adres”. Op meta data niveau maar ook op de data inhoud zal CLAIRE met die ML technologie data elementen classificeren en ter beoordeling op gelijksoortigheid aanbieden. Zo uniformeer je met EDC het datalandschap en breng je met die aangebrachte relaties die verschillende bronnen en objecten met elkaar in verband.

Met seze generieke structuur is het mogelijk vanuit de beschikbare meta data de afhankelijkheden in kaart te brengen. Vanuit een gebruiks- en beheersmatige invalshoek ondersteunt EDC dan allerlei (impact)analyses, Hiervoor is intuitieve en uitgebreide zoekfunctionaliteit beschikbaar. Zo kan bijvoorbeeld o.b.v. de technische meta data de lineage over de gehele gegevensverwerkingsketen van bron tot rapportage in kaart worden gebracht. Maar ook voor (business)analisten biedt EDC analysemogelijkheden om meer inzicht in de datahuishouding te krijgen. Zo kan vanuit het business niveau worden doorgeanalyseerd tot aan het fysieke data niveau, ook wel vertical lineage genoemd. Of voor eindgebruikers en data scientisten het inzcht geven welke data met welke kwaliteit voor rapportage en analyse beschikbaar is.

Naar mijn mening biedt EDC een qua structuur generieke en solide basis voor allerlei soorten meta data, die daarnaast ook nog naar behoefte van de klantorgansatie met eigen attributen kan worden uitgebreid, en op basis van haar Universal Connectivity Framework (API) functioneel kan worden geïntegreerd met andere toepassingen. Dit is de kracht van het concept en EDC biedt daarmee met recht een meta data platform.

Last but not least. Met de techniek kan veel, maar het gebruik en de toepassing vraagt natuurlijk de nodige uitdaging van de klantorganisatie om dit neta data platform goed vorm te geven, in te richten om de toegevoegde waarde er weer uit te halen. Om die reden is de “Data Catalog” ook in onze referentie architectuur opgenomen. Integratie van de data catalog in het data platform van de klantorganisatie is een grote stap voorwaarts naar een op definitie, inhoud en levering “managed” data platform. Misschien zelfs wel een randvoorwaardelijke.

Wil je meer weten over EDC, zie https://www.informatica.com/content/dam/informatica-com/global/amer/us/collateral/data-sheet/enterprise-data-catalog_data-sheet_3238en.pdf.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *