Articoli del meseArticoli del mese

Articoli del mese


Stampa articolo

Articolo del Mese - Gennaio 2019

Enterprise information catalog. I requisiti per fare la scelta giusta

Mike Ferguson by Mike Ferguson

La richiesta di analizzare nuovi tipi di dati ha determinato notevoli cambiamenti nel panorama degli analytics.
La risposta è la creazione di un catalogo dei dati presenti in azienda per ottenere il massimo valore di business, governando i dati su più data store

Molte aziende vanno ben oltre il semplice data warehouse, e oggi le esigenze sono quelle di acquisire, elaborare e analizzare nuovi dati strutturati, semi-strutturati e non strutturati da fonti interne ed esterne, per analisi che non si trovano in un data warehouse tradizionale. Di conseguenza, sono necessari nuovi tipi di carichi di lavoro analitici per ricavare informazioni su questi nuovi tipi di dati: è questo che ha portato all'utilizzo di nuovi data store e di piattaforme analitiche oltre al data warehouse.

La complessità aumenta - Tuttavia, il problema di avere più data store analitici in locale e nel cloud è che la complessità aumenta, in quanto molti tipi di dati diversi vengono importati in tutti questi data store. Di conseguenza, molte aziende stanno affrontando la realtà di non disporre di un data lake centralizzato di tutti i dati in un data store, ma di avere un data lake distribuito con più data store che possono comprendere più sistemi Hadoop, DBMS relazionali, data store NoSQL e cloud storage.

Gli utenti business non hanno alcun posto dove andare per scoprire se sono già disponibili dati affidabili, preparati e integrati in grado di soddisfare le loro esigenze e di risparmiare tempo. La risposta a tutti questi problemi è la creazione di un enterprise information catalog, cioè un catalogo dei dati presenti in azienda, che consente di vedere quali dati e quali elaborazioni vi sono su più data store, sia locali sia nel cloud. Si tratta oggi di un aspetto essenziale sia nella governance dei dati sia negli analytics.

La lista delle cose da fare - Quando si cerca di acquistare un catalogo di dati, alcune delle funzionalità chiave da cercare possono essere queste: 1) nominare/mettere un segnalibro e registrare le fonti dei dati; 2) rilevare automaticamente i dati per capire quali dati vi sono nelle fonti, nei data lake e nei data store analitici, che possono contenere sia dati grezzi importati sia dati affidabili già puliti e integrati in data warehouse, data mart e in sistemi master di gestione dei dati. Questo comprende anche la discovery automatica dei dati nei database RDBMS, Hadoop, cloud storage e NoSQL.

Durante la discovery automatica sarà possibile:

  • Utilizzare il machine learning integrato per etichettare/mettere un nome automaticamente e annotare i singoli campi di dati per indicare qual è il significato dei dati.
  • Utilizzare il machine learning integrato per riconoscere automaticamente i dati che corrispondono a schemi predefiniti o definiti dall'utente, per determinare istantaneamente cosa significano i dati.
  • Rilevare automaticamente i dati identici, simili e correlati in più data store, indipendentemente dal fatto che i nomi di questi dati siano diversi.
  • Profilare automaticamente i dati per comprendere la qualità di ogni oggetto.
  • Ricavare automaticamente la discendenza dei dati per capire da dove provengono i dati.
  • Scoprire automaticamente i dati personali (PII, Personally Identifiable Information).
  • Rilevare automaticamente le variazioni (un requisito fondamentale).
  • Consentire agli utenti di taggare manualmente i dati per introdurli nel catalogo.
  • Creare ruoli all'interno del catalogo, come per esempio: proprietari dei dati, date expert, curatori o produttori dei dati, data steward, consumatori.
  • Consentire la creazione e il mantenimento di comunità virtuali permettendo alle persone non solo di curare, collaborare e modificare manualmente i tag generati automaticamente dal software durante la discovery automatica, ma anche di collaborare con altre elaborazioni nel catalogo, come per esempio: job ETL, job di preparazione dati self-service, modelli analitici, dashboard, report BI, e così via.
  • Definire un insieme di termini commerciali comuni in un glossario aziendale del catalogo e/o importare i termini in un glossario aziendale del catalogo che può essere utilizzato per contrassegnare i dati pubblicati in un catalogo per capire cosa significano i dati.
  • Contrassegnare automaticamente i dati a livello di field per sapere cosa significa.
  • Contrassegnare i dati nel set di dati, nel folder, nel database e a livello di raccolta.
  • Supportare più schemi predefiniti di classificazione di governance dei dati (tagging) che indicano i livelli di riservatezza, la conservazione e l’attendibilità dei dati (cioè la qualità). Lo scopo di questi schemi è quello di essere in grado di taggare i dati con un livello specifico di riservatezza e con un livello specifico di conservazione per sapere come governarli in termini di protezione e conservazione dei dati.
  •  Aggiungere schemi di classificazione della governance dei dati definiti dall'utente per consentire ai dati di essere taggati/etichettati in conformità con questi schemi per sapere come organizzarli e governarli.
  • Automatizzare la classificazione dei dati utilizzando modelli predefiniti, modelli definiti dall'utente (per esempio espressioni regolari o elenchi di riferimento) per identificare e classificare automaticamente tipi specifici di dati in un data lake, per esempio per riconoscere un codice fiscale e un indirizzo e-mail, il nome di una società, un numero di carta di credito.
  • Automatizzare la classificazione dei dati utilizzando l'intelligenza artificiale per osservare, apprendere e predire il significato dei dati in un data lake.
  • Consentire la codifica manuale dei dati e di altre elaborazioni nel catalogo per specificare il significato dei dati e consentire la corretta gestione dei dati.

Consentire più governance e utilizzare i tag da inserire nei dati, tra cui:

Articoli del mese - Technology Transfer