Les solutions d'intelligence artificielle nécessitent des données de haute qualité

Anthony Quattrone, PhD 1 mai 2022

Les données organisationnelles sont capturées et stockées dans divers formats, des feuilles de calcul aux documents texte, bases de données relationnelles et fichiers texte. L'exploitation des données organisationnelles implique une série d'étapes de prétraitement pour les rendre utilisables dans les systèmes d'intelligence d'affaires pour l'établissement de rapports et l'analyse. Les systèmes AI nécessitent des ensembles de données hautement spécialisés pour la formation afin de garantir un degré de spécialisation élevé.

La préparation des données organisationnelles pour une utilisation dans des systèmes d'intelligence artificielle nécessite de nombreux processus complexes d'extraction, de transformation et de chargement (ETL) pour produire un jeu de données d'entraînement avant d'être introduits dans une IA. Le cadre réglementaire de nombreuses organisations implique que les lois et réglementations en matière de confidentialité doivent être respectées avant que l'extraction puisse avoir lieu. De plus, des processus de stockage stricts doivent se conformer aux règles une fois l'extraction terminée afin de garantir que les données sont stockées et utilisées de manière sécurisée.

Il existe de vastes quantités de données dans l'environnement organisationnel actuel, dont certaines sont non structurées dans un format facile à utiliser. Il y a également un défi technique dans le traitement de ces informations. La complexité de la préparation des données augmente lorsque les données ne sont pas statiques et changent constamment en temps réel, et nécessitent des processus dynamiques.

Nous examinerons les principales considérations relatives aux données dans les sections suivantes.

Sources de données organisationnelles courantes

Les données sont stockées dans divers formats et couvrent une multitude de dimensions, des données financières aux informations spatiales. Les données capturées dans les suites de productivité de bureau telles que Microsoft Office et les systèmes sources internes adaptés à cet effet ne se prêtent pas bien à une utilisation directe dans des systèmes d'intelligence artificielle.

La liste suivante présente des sources de données familières ; cette liste n'est en aucun cas exhaustive :

Données financières pour les systèmes de comptabilité ERP (Oracle, SAP)
Données spatiales des systèmes SIG (ESRI ArcGIS)
Feuilles de calcul issues des outils de productivité bureautique (Microsoft Excel, Microsoft Access)
Bases de données SQL personnalisées utilisées derrière les systèmes sources (Microsoft SQL, MySQL, Oracle, SAP)
Bases de données à fichiers plats capturées dans des systèmes existants (Mainframes IBM, fichiers indexés)

Différents systèmes peuvent stocker des données dans divers formats. Les jeux de données nécessitent d'être joints ; cela pose des défis lorsqu'il y a plusieurs systèmes. Il est courant que les analystes de données saisissent des informations manuellement à l'aide de tableurs. La tendance actuelle consiste à intégrer les données dans un lac de données, afin que les ingénieurs de données puissent y travailler sans avoir à interagir directement avec les systèmes critiques. Ainsi, des transformations de données sont nécessaires pour atteindre les objectifs.

Les systèmes d'intelligence artificielle peuvent tirer grand parti de ces données. Cependant, ce n'est qu'une fois traitées dans un format approprié pour être introduites dans de tels systèmes que les lacs de données et les entrepôts de données deviennent cruciaux pour produire des jeux de données de haute qualité.

L'Intelligence Artificielle et sa relation avec les processus Extract-Transform-Load (ETL)

Les processus ETL traditionnels ne changeront probablement pas à mesure que l'intelligence artificielle devient plus importante. Il est plus probable que de telles techniques soient réorientées pour produire des jeux de données propices à l'apprentissage et qui fonctionnent bien avec les systèmes d'IA. Un exemple consiste à prendre des photos d'objets et à les étiqueter avec une association pour permettre aux systèmes d'IA d'apprendre.

Il existe de grandes opportunités pour les data scientists et les ingénieurs de données d'utiliser leurs compétences en préparation de données pour construire des ensembles de données pour des systèmes d'intelligence artificielle. Il sera important que les processus ETL soient automatisés et ne reposent pas sur des processus manuels pour tirer le maximum d'efficacité des systèmes d'intelligence artificielle en temps réel.

Lacs de données et entrepôts de données comme source unique de vérité pour une utilisation dans l'intelligence artificielle

Les données brutes stockées sur différents systèmes entraînent une fragmentation. Pour y remédier, il est souhaitable de diriger toutes les données vers un seul emplacement, tel qu'une base de données relationnelle qui permet les requêtes et la manipulation des données. Une fois que toutes les données sont stockées dans un seul endroit, elles peuvent être plus facilement consultées et exploitées pour produire des jeux de données qui génèrent des informations précieuses. Il est essentiel de définir une source unique de vérité.

Les entrepôts de données peuvent ensuite être définis à l'aide de normes telles que Kimball ou Inmon pour créer des dimensions afin de définir des faits ou des mesures. Un fait correspond généralement à des données catégorielles, tandis qu'une mesure correspond généralement à des données numériques dans l'acception générale. Le traitement des données à l'aide de telles normes offre des avantages significatifs en garantissant l'efficacité et la précision.

L'avantage peut-être le plus significatif pour les organisations qui ont investi dans la mise en place d'un bon entrepôt de données est qu'il ouvre l'ensemble de données organisationnel à l'ensemble de l'organisation. Dans les grandes organisations, la plupart des employés n'ont pas accès aux systèmes sources critiques qui font fonctionner l'entreprise ; cependant, ils ont accès à l'entrepôt de données, généralement en lecture seule. Les entrepôts de données permettent aux employés d'identifier des informations que la structure de direction de l'organisation peut ne pas connaître couramment.

La création d'entrepôts de données garantit que les considérations de confidentialité et réglementaires sont définies. Les entrepôts de données aident à garantir que les données sont transférées en toute sécurité entre les parties prenantes. L'accès aux lacs de données et aux entrepôts peut également améliorer la transparence et la responsabilité de la manière dont les fonctions organisationnelles sont exécutées, permettant des procédures de fonctionnement plus stables.

La visualisation des Big Data organisationnels

Un défi du big data consiste à déterminer comment le visualiser au mieux et transmettre l'histoire qu'il raconte. Les approches précédentes comprenaient des services de reporting qui agrègent les données des niveaux inférieurs vers les niveaux supérieurs pour être affichées dans des graphiques standards tels que des graphiques à barres, des graphiques linéaires et des nuages de points. Ces approches conviennent aux rapports de gestion (c'est-à-dire les rapports de ventes, les rapports de comptes) qui font partie des opérations quotidiennes habituelles de l'entreprise. Microsoft SSRS est l'outil le plus couramment utilisé pour le reporting à l'échelle de l'entreprise.

Des programmes de visualisation avancés ont émergé pour combler cette lacune, Tableau et QlikView dominant le marché. Tableau s'est fortement concentré sur des visualisations saisissantes, tandis que QlikView a réussi à équilibrer les services de reporting traditionnels tels que Microsoft SSRS et Tableau. Microsoft PowerBI a dominé le marché et est considéré comme plus complexe par Gartner. Ces programmes créent des tableaux de bord incroyablement utiles pour surveiller plusieurs indicateurs clés et intégrer cette surveillance dans le cadre de processus organisationnels complets. Les décideurs stratégiques ont récemment créé d'excellents tableaux de bord pour prendre des décisions basées sur les données, tandis que les responsables des opérations peuvent réagir plus rapidement pour atteindre les objectifs de l'entreprise.

Avec l'avènement de l'AI, la visualisation jouera un rôle vital. Les informations que les systèmes d'Intelligence Artificielle peuvent produire sont complexes, et elles doivent être communiquées dans une représentation visuelle que les gens peuvent facilement comprendre. Un excellent exemple de cela est la présentation d'une carte auto-organisatrice (SOM) pour visualiser des données multivariées.

Fusionner les données à intégrer dans des systèmes d'intelligence artificielle

Étant donné l'accès aux jeux de données, il est alors possible de prendre des données d'une base de données relationnelle et de fournir un connecteur à un système d'intelligence artificielle. La plupart des systèmes d'IA modernes sont construits en utilisant Python et s'appuient sur des modules généralement implémentés en C/C++ pour garantir l'efficacité.

Python étant actuellement l'outil principal pour interagir avec l'IA, une riche série de connecteurs de données est disponible pour de nombreux types de bases de données afin d'accéder aux données. De plus, Python se prête bien aux manipulations de données et étend encore ses fonctionnalités natives avec des bibliothèques riches telles que NumPy et Pandas pour aider davantage au prétraitement des données fournies à des systèmes d'IA spécifiques. Les frameworks actuels sont exigeants quant aux formats de données acceptés. Les frameworks de données à typage statique peuvent y contribuer. Le traitement GPU nécessite des types de données spécifiques, qui sont peu susceptibles de changer. Ainsi, les considérations relatives aux types de données doivent être prises à l'avance.

Les systèmes d'intelligence artificielle dans le domaine de l'IA étroite ont des exigences spécifiques en matière de données, et il vaut la peine de prendre le temps d'y réfléchir lors des phases de planification de la création des jeux de données à utiliser dans lesdits systèmes.

Capturer, stocker et interpréter les résultats de l'intelligence artificielle

Les systèmes d'intelligence artificielle, compte tenu des entrées, produiront par conséquent des sorties qui devront être stockées. Plus excitant encore, les résultats peuvent être réinjectés dans les lacs de données/entrepôts de données et poursuivre le processus de génération d'informations, les informations pouvant en générer de nouvelles. La gestion du stockage des sorties devra être examinée attentivement dans le cadre d'un système de gouvernance des données plus large.

Étant donné que les systèmes d'intelligence artificielle traitent de vastes quantités d'informations, il est probable de trouver des informations contre-intuitives qu'un humain manquerait généralement. Ce sont généralement ces informations qui produisent l'avantage concurrentiel le plus significatif. Ainsi, les organisations n'auront d'autre choix que de s'engager avec ces systèmes comme moyen de rester compétitives.

L'interprétation des résultats de l'intelligence artificielle nécessitera une attention particulière. Tout comme dans la recherche actuelle aujourd'hui, il est possible qu'ils soient mal interprétés. Par conséquent, les analystes de données doivent retracer tous les points de données et reconstituer pourquoi les systèmes d'AI ont produit des résultats spécifiques, au risque d'agir de manière incorrecte sur la base de ces informations. L'utilisation d'outils de visualisation des données tels que décrits ci-dessus peut être appliquée aux résultats générés par l'AI.

Au cours des prochaines décennies, les organisations commenceront à s'appuyer sur les informations produites par les systèmes d'AI, et la manière dont les données sous-jacentes à ces systèmes sont gouvernées et mises en œuvre sera de la plus haute importance.

Contactez-nous aujourd'hui pour une consultation gratuite sur la façon dont le Telemus AI™ peut être intégré à votre organisation.

Préparation des données organisationnelles pour une utilisation avec l'AI