Machine Learning - Detección de Transacciones Fraudulentas con Bosques de Aislamiento

En un mundo digital cada vez más interconectado, miles de millones de transacciones ocurren todos los días a través de diversos sistemas, desde terminales de punto de venta en tiendas tradicionales hasta pasarelas de pago en línea. Estos sistemas han brindado grandes oportunidades y han ayudado a impulsar nuevos negocios innovadores con modelos de negocio únicos. Si bien ha habido beneficios significativos, también ha habido un fuerte aumento en el cibercrimen cada vez más sofisticado.

Una de las formas más comunes de ciberdelincuencia es el fraude con tarjetas de crédito, que representa miles de millones de dólares registrados en el sector financiero a nivel mundial. Dado el número de transacciones que se producen cada día, resulta un desafío para las instituciones financieras combatir a los ciberdelincuentes; los avances recientes en Machine Learning han dado lugar a nuevos métodos para identificar y detectar transacciones fraudulentas. La identificación precisa del fraude permite estrategias de mitigación automatizadas, como alertar al cliente y solicitar una confirmación adicional antes de que se procese una transacción.

Este caso de estudio explora un enfoque orientado al aprendizaje automático para la identificación de fraude con tarjetas de crédito. El aprendizaje automático ha demostrado ser eficaz en muchos entornos diferentes y también es eficiente para ejecutarse en grandes volúmenes de datos, una consideración esencial para los ingenieros de software que implementan sistemas bancarios.

Resolviendo el Problema mediante Inteligencia Artificial

La detección de anomalías ha sido tradicionalmente un problema que se encuentra dentro del campo de la estadística. Los métodos convencionales asumen que un conjunto de datos se ajusta a la distribución normal. Por lo tanto, los valores atípicos se detectan observando qué puntos de datos se desvían significativamente de la norma. El inconveniente de este método es que si un conjunto de datos no está distribuido normalmente, la efectividad de la técnica es limitada.

Detección de anomalías mediante machine learning aislando un punto anómalo

Posteriormente se intentaron enfoques de Machine Learning utilizando avances algorítmicos recientes, que resultaron ser altamente efectivos, escalables y superan las limitaciones antes mencionadas de los métodos estadísticos. Aunque no ampliamente adoptados fuera del sector financiero, muchos de estos métodos se han productionised actualmente en la banca.

Un enfoque novedoso fue desarrollado en 2008 en [1] aprovechando una propiedad única de los valores atípicos, siendo que los valores atípicos suelen estar aislados en relación con la mayoría de los puntos de datos. Dada esta propiedad, es posible generar particiones aleatorias alrededor de los puntos de datos para aislar un punto de datos; cuantas menos particiones se requieran para aislar un punto de datos, más probable es que dicho punto de datos sea un valor atípico. El algoritmo desarrollado tiene una complejidad de tiempo lineal y se demostró que funciona bien incluso cuando se dispone de datos de entrenamiento limitados; esto contrasta con los enfoques típicos que requieren datos de entrenamiento extensos.

Animación de fraude con tarjetas de crédito

Descripción general del desafío organizacional

Considerando que miles de millones de transacciones ocurren diariamente, detectar valores atípicos fraudulentos y ejecutar un modelo en tiempo real es un desafío. Una inspección visual destaca que encontrar una aguja en un pajar es como encontrar una aguja. Las siguientes imágenes ilustran transacciones bancarias a lo largo del tiempo, con verde legítimo y rojo fraudulento. Es un desafío aislar las transacciones fraudulentas. Se requiere que las instituciones financieras intenten combatir el fraude para cumplir con las regulaciones. También es una expectativa de los clientes. Por lo general, cuando ocurre un fraude, la institución financiera asume el costo para mantener la satisfacción del cliente.

Gráfico de dispersión de transacciones con tarjetas de crédito

Gráfico de burbujas empaquetadas de transacciones con tarjetas de crédito

Las organizaciones recurren cada vez más a métodos de aprendizaje automático como parte de sus procesos de transformación digital para resolver problemas que requieren escala, como la detección de fraude. Muchos de los indicadores para detectar fraude se almacenan típicamente en almacenes de datos. Las técnicas de contabilidad forense también son bastante avanzadas para determinar las métricas utilizadas como entradas para los modelos de aprendizaje automático.

Los bosques de aislamiento se han aplicado al conjunto de datos de tarjetas de crédito de Kaggle [2] y se ha demostrado que son efectivos en un 99% en la detección de transacciones fraudulentas [3]. Dado que se ha determinado un enfoque general que funciona, la mayoría de las organizaciones enfrentan desafíos de implementación que funcionan a escala en lugar de tener que investigar & desarrollar una solución.

Datos Organizacionales Disponibles como Entrada para ML

Las fuentes de datos utilizadas por las instituciones financieras son las siguientes:

Metadatos de clientes.
Marcas de tiempo y montos de las transacciones.
Historial de transacciones de los clientes.
La ubicación geográfica de las transacciones.
Ley de Benford.

Metodología de Integración

A continuación se presenta una descripción general del proceso que realizaríamos a un alto nivel para analizar dichos flujos dentro de una organización:

Identificar métricas financieras de los sistemas ERP que pueden usarse como entradas.
Entrenar un bosque de aislamiento en un conjunto de datos inicial, y continuar entrenando el modelo en el futuro para asegurar que detecte los patrones de transacciones fraudulentas más recientes.
Al llamar a las APIs de Telemus AI™ para ejecutar el Bosque de Aislamiento en las transacciones entrantes, el API devuelve una estimación probabilística de la probabilidad de una transacción fraudulenta basada en el modelo.
Configurar flujos de trabajo y procesos personalizados para alertar al equipo de fraude, así como a los clientes, sobre transacciones potencialmente fraudulentas

Telemus AI™ cuenta con modelos robustos de aprendizaje automático listos para que su organización pueda centrarse en la lógica de negocio en lugar de en la implementación técnica.

Aplicaciones Organizacionales

A continuación se enumeran otras aplicaciones potenciales para su organización:

Detectar transacciones fraudulentas.
Detectar reclamaciones fraudulentas de empleados.
Determinar comportamientos organizacionales inusuales a través de sistemas de seguimiento de recursos humanos.

Beneficios potenciales y realizados

Dada la gran magnitud de tiempo y dinero que cuesta el fraude financiero y el daño reputacional y la insatisfacción del cliente que puede causar, la prevención activa del fraude puede ahorrar hasta millones, incluso miles de millones de dólares, dependiendo de la escala de la operación. Los organismos reguladores también están emitiendo continuamente directrices de cumplimiento más estrictas. Existe la expectativa de que las instituciones financieras tengan procesos, procedimientos y sistemas para prevenir y combatir el fraude. Las tecnologías regulatorias, o RegTech, es un campo emergente que tiene el potencial de impulsar muchas innovaciones dentro de los departamentos de operaciones de muchas organizaciones en el futuro.

Telemus AI™ es una empresa de inteligencia artificial con sede en Australia que proporciona soluciones avanzadas al gobierno y a las empresas. Contáctenos hoy para una consulta gratuita sobre cómo Telemus AI™ puede integrarse en su organización.

Referencias

[1] - Isolation Forest - Fei Tony Liu, Kai Ming Ting, y Zhi-Hua Zhou
[2] - Detección de fraude con tarjetas de crédito - Kaggle
[3] - Machine Learning en Detección de Fraude con Tarjetas de Crédito - S Joel Franklin

Etiquetas