Preparazione dei dati organizzativi per l'uso con l'AI

Le soluzioni di Intelligenza Artificiale richiedono dati di alta qualità

Anthony Quattrone, PhD 1 maggio 2022

I dati organizzativi vengono acquisiti e memorizzati in vari formati, dai fogli di calcolo ai documenti di testo, database relazionali e file di testo. Lo sfruttamento dei dati organizzativi comporta una serie di passaggi di pre-elaborazione per renderli adatti all'uso nei sistemi di business intelligence per il reporting e l'analisi. I sistemi AI richiedono dataset altamente specializzati per l'addestramento al fine di garantire un elevato grado di specializzazione.

La preparazione dei dati organizzativi per l'uso nei sistemi di intelligenza artificiale richiede molti complessi processi di Extract-Transform-Load (ETL) per produrre un set di dati di addestramento prima di essere inseriti in un AI. Il quadro normativo di molte organizzazioni implica che le leggi e i regolamenti sulla privacy debbano essere rispettati prima che possa avvenire l'estrazione. Inoltre, i rigorosi processi di archiviazione devono conformarsi alle regole una volta completata l'estrazione per garantire che i dati siano archiviati e utilizzati in modo sicuro.

Ci sono grandi quantità di dati nell'attuale ambiente organizzativo, alcuni dei quali non strutturati in un formato facile da gestire. Esiste anche una sfida tecnica nell'elaborazione di queste informazioni. La complessità della preparazione dei dati aumenta quando i dati non sono statici e cambiano costantemente in tempo reale, richiedendo processi dinamici.

Esploreremo le principali considerazioni sui dati nelle sezioni seguenti.

Fonti di dati organizzativi comuni

I dati sono archiviati in vari formati e coprono una moltitudine di dimensioni, dai dati finanziari alle informazioni spaziali. I dati acquisiti in suite di produttività per ufficio come Microsoft Office e nei sistemi di origine interni specifici non si prestano bene all'uso diretto nei sistemi di intelligenza artificiale.

Di seguito un elenco di fonti di dati familiari; questo elenco non è in alcun modo esaustivo:

  • Dati finanziari per sistemi di contabilità ERP (Oracle, SAP)
  • Dati Spaziali da Sistemi GIS (ESRI ArcGIS)
  • Fogli di calcolo da strumenti di produttività per ufficio (Microsoft Excel, Microsoft Access)
  • Database SQL personalizzati utilizzati dietro i sistemi di origine (Microsoft SQL, MySQL, Oracle, SAP)
  • Database di file flat acquisiti in sistemi legacy (Mainframe IBM, file indicizzati)

Sistemi diversi possono archiviare i dati in vari formati. I dataset richiedono unione; ciò presenta sfide quando sono presenti sistemi multipli. È prassi comune per gli analisti di dati inserire le informazioni manualmente utilizzando fogli di calcolo. L'attuale tendenza è inserire i dati in un data lake, in modo che gli ingegneri dei dati possano utilizzarli senza dover interfacciarsi direttamente con i sistemi critici. Pertanto, sono state richieste trasformazioni dei dati per raggiungere gli obiettivi.

I sistemi di Intelligenza Artificiale possono fare grande uso di questi dati. Tuttavia, solo quando vengono prima elaborati in un formato adatto per essere immessi in tali sistemi, i data lake e i data warehouse diventano cruciali nella produzione di dataset di alta qualità.

L'Intelligenza Artificiale e la sua relazione con i processi Extract-Transform-Load (ETL)

I processi ETL tradizionali probabilmente non cambieranno man mano che l'intelligenza artificiale diventerà più prominente. È più probabile che tali tecniche vengano ridefinite per produrre set di dati che siano adatti all'apprendimento e che funzionino bene con i sistemi AI. Un esempio è scattare foto di oggetti ed etichettarli con un'associazione per consentire ai sistemi AI di apprendere.

Ci sono grandi opportunità per data scientist e data engineer di utilizzare le loro competenze di preparazione dei dati per costruire dataset per sistemi di intelligenza artificiale. Sarà importante che i processi ETL siano automatizzati e non si basino su processi manuali per ottenere la massima efficienza dai sistemi di intelligenza artificiale in tempo reale.

Data Lakes e Data Warehouses come un'unica fonte di verità per l'uso nell'Intelligenza Artificiale

I dati grezzi memorizzati in sistemi diversi comportano frammentazione. Per ovviare a ciò, è auspicabile convogliare tutti i dati in un'unica posizione, ad esempio un database relazionale che consenta query e manipolazione dei dati. Una volta memorizzati tutti i dati in un'unica area, è possibile accedervi e utilizzarli più facilmente per produrre dataset che generano informazioni preziose. È essenziale definire un'unica fonte di verità.

I Data Warehouse possono quindi essere definiti utilizzando standard come Kimball o Inmon per creare dimensioni che definiscano fatti o misure. Un fatto è tipicamente dato categorico, mentre una misura è tipicamente dato numerico nella comprensione generale. L'elaborazione dei dati utilizzando tali standard offre vantaggi significativi nel garantire efficienza e accuratezza.

Forse il vantaggio più significativo per le organizzazioni che hanno investito nell'avere un buon data warehouse è che apre il set di dati organizzativo all'intera organizzazione. Nelle grandi organizzazioni, la maggior parte dei dipendenti non ha accesso ai sistemi di origine critici che gestiscono l'attività; tuttavia, hanno accesso al data warehouse, in genere in sola lettura. I data warehouse consentono ai dipendenti di identificare informazioni che la struttura di gestione dell'organizzazione potrebbe non conoscere comunemente.

La creazione di data warehouse garantisce che le considerazioni sulla privacy e sulla normativa siano definite. I data warehouse aiutano a garantire che i dati siano trasferiti in modo sicuro tra le parti interessate. L'accesso ai data lake e ai data warehouse può anche migliorare la trasparenza e la responsabilità di come vengono svolte le funzioni organizzative, consentendo procedure operative più stabili.

La Visualizzazione dei Big Data Organizzativi

Una sfida dei big data è come visualizzarli al meglio e trasmettere la storia che raccontano. Gli approcci precedenti includevano servizi di reportistica che aggregano i dati dai livelli inferiori a quelli superiori per essere visualizzati in grafici standard come grafici a barre, grafici a linee e grafici a dispersione. Questi approcci sono adatti per report di gestione (cioè report di vendita, report di conto) che fanno parte delle normali operazioni aziendali quotidiane. Microsoft SSRS è lo strumento più comune utilizzato per la reportistica a livello aziendale.

Programmi di visualizzazione avanzati sono emersi per colmare questa lacuna, con Tableau e QlikView che dominano il mercato. Tableau si è concentrato fortemente su visualizzazioni straordinarie, mentre QlikView è riuscito a bilanciare i servizi di reporting tradizionali come Microsoft SSRS e Tableau. Microsoft PowerBI ha dominato il mercato ed è considerato più complesso da Gartner. Questi programmi creano dashboard incredibilmente utili per monitorare molteplici metriche chiave e integrare tale monitoraggio come parte di processi organizzativi completi. I decisori strategici hanno recentemente creato ottimi dashboard per prendere decisioni basate sui dati, mentre i responsabili operativi possono rispondere più rapidamente per raggiungere gli obiettivi aziendali.

Con l'avvento dell'AI, la visualizzazione giocherà un ruolo vitale. Le intuizioni che i sistemi di Intelligenza Artificiale possono produrre sono complesse e devono essere comunicate in una rappresentazione visiva che le persone possano comprendere facilmente. Un eccellente esempio è presentare una self-organising map (SOM) per visualizzare dati multivariati.

Riunire i dati per alimentare un sistema di Intelligenza Artificiale

Avendo accesso ai dataset, è quindi possibile prendere i dati da un database relazionale e fornire un connettore a un sistema di intelligenza artificiale. La maggior parte dei sistemi AI moderni è costruita utilizzando Python e si affida a moduli tipicamente implementati in C/C++ per garantire l'efficienza.

Poiché Python è attualmente lo strumento principale per interfacciarsi con l'AI, è disponibile una ricca serie di connettori di dati per molti tipi diversi di database per accedere ai dati. Inoltre, Python si presta bene alle manipolazioni dei dati ed estende ulteriormente le funzionalità native con librerie avanzate come NumPy e Pandas per aiutare ulteriormente a pre-elaborare i dati immessi in sistemi AI specifici. I framework attuali sono esigenti riguardo ai formati di dati accettati. I framework di dati tipizzati staticamente possono essere utili a questo scopo. L'elaborazione GPU richiede tipi di dati specifici, che difficilmente cambieranno. Pertanto, le considerazioni sui tipi di dati devono essere fatte in anticipo.

I sistemi di Intelligenza Artificiale nel campo dell'AI ristretta hanno requisiti di dati specifici, e vale la pena dedicare del tempo a considerare ciò durante le fasi di pianificazione della creazione dei dataset da utilizzare in detti sistemi.

Acquisizione, Memorizzazione e Interpretazione dei Risultati dell'Intelligenza Artificiale

I sistemi di Intelligenza Artificiale, ricevuti gli input, produrranno di conseguenza output che dovranno essere memorizzati. Ancora più interessante, i risultati possono essere reinseriti nei data lake/data warehouse e continuare il processo di generazione di intuizioni, poiché le intuizioni possono generarne ulteriori. La gestione di come vengono memorizzati gli output dovrà essere considerata attentamente all'interno di un quadro più ampio di governance dei dati.

Poiché i sistemi di intelligenza artificiale elaborano grandi quantità di informazioni, è probabile che trovino intuizioni controintuitive che un umano in genere perderebbe. Sono solitamente queste intuizioni a produrre il vantaggio competitivo più significativo. Pertanto, le organizzazioni non avranno altra scelta che interagire con questi sistemi come mezzo per rimanere competitive.

L'interpretazione dei risultati dell'intelligenza artificiale richiederà un'attenta considerazione. Proprio come nella ricerca attuale oggi, è possibile che vengano interpretati in modo errato. Pertanto, gli analisti di dati devono rintracciare tutti i punti dati e risalire al motivo per cui i sistemi AI hanno prodotto risultati specifici, altrimenti rischiano di agire in modo errato sulle intuizioni. L'uso di strumenti di visualizzazione dei dati come descritto sopra può essere applicato ai risultati generati dall'AI.

Procedendo nei prossimi decenni, le organizzazioni inizieranno a fare affidamento sulle informazioni prodotte dai sistemi AI e il modo in cui i dati alla base di questi sistemi sono governati e implementati sarà della massima importanza.

Contattaci oggi per una consulenza gratuita su come il Telemus AI™ può essere integrato nella tua organizzazione.