Preparación de datos organizacionales para su uso con AI

Las Soluciones de Inteligencia Artificial Requieren Datos de Alta Calidad

Anthony Quattrone, PhD 1 de mayo de 2022

Los datos organizacionales se capturan y almacenan en varios formatos, desde hojas de cálculo hasta documentos de texto, bases de datos relacionales y archivos de texto. El aprovechamiento de los datos organizacionales implica una serie de pasos de preprocesamiento para hacerlos adecuados para su uso en sistemas de inteligencia empresarial para informes y análisis. Los sistemas AI requieren conjuntos de datos altamente especializados para el entrenamiento a fin de garantizar un alto grado de especialización.

La preparación de datos organizacionales para su uso en sistemas de inteligencia artificial requiere muchos procesos complejos de Extracción-Transformación-Carga (ETL) para producir un conjunto de datos de entrenamiento antes de ser introducidos en un AI. El marco regulatorio de muchas organizaciones implica que las leyes y regulaciones de privacidad deben cumplirse antes de que pueda ocurrir la extracción. Además, los procesos estrictos de almacenamiento deben cumplir con las reglas una vez que la extracción esté completa para garantizar que los datos se almacenen y utilicen de forma segura.

Existen vastas cantidades de datos en el entorno organizacional actual, algunos de los cuales no están estructurados en un formato fácil de trabajar. También existe un desafío técnico en el procesamiento de esta información. La complejidad de la preparación de datos aumenta cuando los datos no son estáticos y cambian constantemente en tiempo real, y requieren procesos dinámicos.

Exploraremos las consideraciones clave de datos en las siguientes secciones.

Fuentes de datos organizacionales comunes

Los datos se almacenan en varios formatos y cubren una multitud de dimensiones, desde datos financieros hasta información espacial. Los datos capturados en suites de productividad de oficina como Microsoft Office y en sistemas de origen internos diseñados para un propósito específico no se prestan bien para su uso directo en sistemas de inteligencia artificial.

La siguiente lista muestra fuentes de datos conocidas; de ninguna manera esta lista es exhaustiva:

  • Datos financieros para sistemas de contabilidad ERP (Oracle, SAP)
  • Datos Espaciales de Sistemas GIS (ESRI ArcGIS)
  • Hojas de cálculo de herramientas de productividad de oficina (Microsoft Excel, Microsoft Access)
  • Bases de datos SQL personalizadas utilizadas detrás de los sistemas de origen (Microsoft SQL, MySQL, Oracle, SAP)
  • Bases de datos de archivos planos capturadas en sistemas heredados (Mainframes de IBM, archivos indexados)

Diferentes sistemas pueden almacenar datos en varios formatos. Los conjuntos de datos requieren unión; esto presenta desafíos cuando hay múltiples sistemas. Es común que los analistas de datos ingresen información manualmente usando hojas de cálculo. La tendencia actual es introducir los datos en un data lake, para que los ingenieros de datos puedan trabajar con ellos sin tener que interactuar directamente con sistemas críticos. Por lo tanto, se requirieron transformaciones de datos para lograr los objetivos.

Los sistemas de Inteligencia Artificial pueden hacer un gran uso de estos datos. Sin embargo, solo cuando primero se procesan en un formato adecuado para introducirlos en dichos sistemas es donde los lagos de datos y los almacenes de datos son cruciales en la producción de conjuntos de datos de alta calidad.

La Inteligencia Artificial y su relación con los procesos Extract-Transform-Load (ETL)

Los procesos tradicionales de ETL probablemente no cambiarán a medida que la inteligencia artificial se vuelva más prominente. Es más probable que dichas técnicas sean reorientadas para producir conjuntos de datos que sean propicios para el aprendizaje y que funcionen bien con sistemas de AI. Un ejemplo es tomar fotos de objetos y etiquetarlas con una asociación para permitir que los sistemas de AI aprendan.

Existen grandes oportunidades disponibles para los científicos de datos e ingenieros de datos para utilizar sus conjuntos de habilidades de preparación de datos para construir conjuntos de datos para sistemas de inteligencia artificial. Será importante que los procesos ETL estén automatizados y no dependan de procesos manuales para obtener la máxima eficiencia de los sistemas de inteligencia artificial en tiempo real.

Data Lakes y Data Warehouses como una única fuente de verdad para su uso en Inteligencia Artificial

Los datos sin procesar almacenados en diferentes sistemas resultan en fragmentación. Para superar esto, es deseable canalizar todos los datos a una ubicación, como una base de datos relacional que permita consultas y manipulación de datos. Una vez que todos los datos se almacenan en un área, se puede acceder a ellos y trabajar con ellos más fácilmente para producir conjuntos de datos que generen información valiosa. Es esencial definir una única fuente de verdad.

Los almacenes de datos pueden definirse utilizando estándares como Kimball o Inmon para crear dimensiones que definan hechos o medidas. Un hecho típico son datos categóricos, mientras que una medida son típicamente datos numéricos en la comprensión general. El procesamiento de datos utilizando dichos estándares ofrece beneficios significativos para garantizar la eficiencia y la precisión.

Quizás la ventaja más significativa para las organizaciones que han invertido en tener un buen almacén de datos es que abre el conjunto de datos organizacional a la organización en general. En el caso de las grandes organizaciones, la mayoría de los empleados no tienen acceso a los sistemas de origen críticos que gestionan el negocio; sin embargo, tienen acceso al almacén de datos, normalmente de solo lectura. Los almacenes de datos permiten a los empleados identificar información que la estructura de gestión de la organización puede no conocer comúnmente.

La creación de almacenes de datos garantiza que se definan las consideraciones de privacidad y regulación. Los almacenes de datos ayudan a asegurar que los datos se transfieran de manera segura entre las partes interesadas. El acceso a lagos de datos y almacenes también puede mejorar la transparencia y la rendición de cuentas sobre cómo se llevan a cabo las funciones organizativas, permitiendo procedimientos operativos más estables.

La Visualización de Big Data Organizacional

Un desafío del big data es cómo visualizarlo mejor y transmitir la historia que cuenta. Los enfoques anteriores incluían servicios de informes que agregan los datos de niveles inferiores a superiores para mostrarse en gráficos estándar como gráficos de barras, gráficos de líneas y diagramas de dispersión. Estos enfoques son adecuados para informes de gestión (es decir, informes de ventas, informes de cuentas) que forman parte de las operaciones diarias habituales del negocio. Microsoft SSRS es la herramienta más común utilizada para informes a nivel empresarial.

Programas avanzados de visualización surgieron para abordar esta brecha, con Tableau y QlikView dominando el mercado. Tableau se centró fuertemente en visualizaciones impresionantes, mientras que QlikView logró equilibrar servicios de informes tradicionales como Microsoft SSRS y Tableau. Microsoft PowerBI ha dominado el mercado y es considerado más complejo por Gartner. Estos programas crean paneles que son increíblemente útiles para monitorear múltiples métricas clave e integrar dicho monitoreo como parte de procesos organizacionales integrales. Los tomadores de decisiones estratégicas recientemente han creado excelentes paneles para tomar decisiones basadas en datos, mientras que los gerentes de operaciones pueden responder más rápido para lograr los objetivos corporativos.

Con la llegada del AI, la visualización jugará un papel vital. Los conocimientos que los sistemas de Inteligencia Artificial pueden producir son complejos, y deben comunicarse en una representación visual que las personas puedan entender fácilmente. Un excelente ejemplo de esto es presentar un mapa autoorganizado (SOM) para ver datos multivariados.

Consolidación de datos para alimentar sistemas de Inteligencia Artificial

Dado el acceso a conjuntos de datos, es posible tomar datos de una base de datos relacional y proporcionar un conector a un sistema de inteligencia artificial. La mayoría de los sistemas de AI modernos se construyen utilizando Python y dependen de módulos típicamente implementados en C/C++ para garantizar la eficiencia.

Como Python es actualmente la principal herramienta para interactuar con AI, hay disponible una amplia serie de conectores de datos para muchos tipos diferentes de bases de datos para acceder a los datos. Además, Python se presta bien a la manipulación de datos y amplía aún más su funcionalidad nativa con ricas bibliotecas como NumPy y Pandas para ayudar a preprocesar los datos que se introducen en sistemas de AI específicos. Los marcos actuales son exigentes con los formatos de datos que se aceptan. Los marcos de datos de tipado estático pueden ayudar con esto. El procesamiento de GPU requiere tipos de datos específicos, que es poco probable que cambien. Por lo tanto, las consideraciones sobre los tipos de datos deben hacerse con anticipación.

Los sistemas de Inteligencia Artificial en el campo de la AI estrecha tienen requisitos de datos específicos, y vale la pena tomarse el tiempo para considerar esto durante las etapas de planificación de la creación de conjuntos de datos que se utilizarán en dichos sistemas.

Captura, Almacenamiento e Interpretación de Resultados de Inteligencia Artificial

Los sistemas de Inteligencia Artificial, dados los insumos, producirán en consecuencia resultados que deberán almacenarse. Más emocionante aún, los resultados pueden reintroducirse en los lagos de datos/almacenes de datos y continuar el proceso de entrega de conocimientos, ya que los conocimientos pueden generar más conocimientos. La gestión de cómo se almacenan los resultados deberá considerarse cuidadosamente dentro de un marco más amplio de gobernanza de datos.

Dado que los sistemas de inteligencia artificial procesan grandes cantidades de información, es probable que encuentren conocimientos contraintuitivos que un humano normalmente pasaría por alto. Suele ser esta información la que produce la ventaja competitiva más significativa. Por lo tanto, las organizaciones no tendrán más remedio que interactuar con estos sistemas como un medio para seguir siendo competitivas.

La interpretación de los resultados de la inteligencia artificial requerirá una consideración cuidadosa. Al igual que con la investigación actual en la actualidad, es posible que se malinterprete. Por lo tanto, los analistas de datos deben rastrear todos los puntos de datos y retroceder para averiguar por qué los sistemas de AI han arrojado hallazgos específicos o corren el riesgo de actuar incorrectamente basándose en la información obtenida. El uso de herramientas de visualización de datos como se describió anteriormente se puede aplicar a los resultados generados por AI.

Al adentrarse en las próximas décadas, las organizaciones comenzarán a depender de la información producida por sistemas de AI y la forma en que los datos que sustentan estos sistemas se gobiernan e implementan será de suma importancia.

Contáctenos hoy para una consulta gratuita sobre cómo Telemus AI™ puede integrarse en su organización.