Apprentissage automatique - Détection de transactions frauduleuses avec les forêts d'isolation

Dans un monde numérique de plus en plus interconnecté, des milliards de transactions se produisent chaque jour via divers systèmes, des terminaux de point de vente dans les magasins traditionnels aux passerelles de paiement en ligne. Ces systèmes ont offert de grandes opportunités et ont contribué à stimuler de nouvelles entreprises innovantes avec des modèles commerciaux uniques. Bien qu'il y ait eu des avantages significatifs, il y a également eu une forte augmentation de la cybercriminalité de plus en plus sophistiquée.

L'une des formes les plus courantes de cybercriminalité est la fraude par carte de crédit, représentant des milliards de dollars répertoriés dans le secteur financier à l'échelle mondiale. Compte tenu du nombre de transactions qui se produisent chaque jour, il est difficile pour les institutions financières de lutter contre les cybercriminels ; les progrès récents en matière d'apprentissage automatique ont donné lieu à de nouvelles méthodes pour identifier et détecter les transactions frauduleuses. L'identification précise de la fraude permet des stratégies d'atténuation automatisées telles que l'alerte du client et la demande de confirmation supplémentaire avant qu'une transaction ne soit traitée.

Cette étude de cas explore une approche orientée apprentissage automatique de l'identification des fraudes par carte de crédit. L'apprentissage automatique s'est avéré efficace dans de nombreux contextes différents et est également efficace pour traiter de grands volumes de données, une considération essentielle pour les ingénieurs logiciels mettant en œuvre des systèmes bancaires.

Résoudre le problème via l'intelligence artificielle

La détection d'anomalies a traditionnellement été un problème relevant du domaine des statistiques. Les méthodes conventionnelles supposent qu'un jeu de données suit une distribution normale. Ainsi, les valeurs aberrantes sont détectées en observant les points de données qui s'écartent significativement de la norme. L'inconvénient de cette méthode est que si un jeu de données n'est pas normalement distribué, l'efficacité de la technique est limitée.

Détection d'anomalies par apprentissage automatique isolant un point anomal

Des approches d'apprentissage automatique utilisant des avancées algorithmiques récentes ont ensuite été tentées, qui se sont révélées hautement efficaces, évolutives et surmontent les limites susmentionnées des méthodes statistiques. Bien que non largement adoptées en dehors du secteur financier, nombre de ces méthodes sont actuellement industrialisées dans le domaine bancaire.

Une approche novatrice a été développée en 2008 dans [1] en exploitant une propriété unique des valeurs aberrantes, à savoir que les valeurs aberrantes sont généralement isolées par rapport à la majorité des points de données. Compte tenu de cette propriété, il est possible de générer des partitions aléatoires entourant les points de données pour enfermer un point de données ; moins les partitions nécessaires pour isoler un point de données sont nombreuses, plus il est probable qu'un tel point de données soit une valeur aberrante. L'algorithme développé a une complexité temporelle linéaire et s'est avéré fonctionner correctement même lorsque des données d'entraînement limitées sont disponibles ; cela contraste avec les approches typiques qui nécessitent des données d'entraînement importantes.

Animation de fraude par carte de crédit

Aperçu du défi organisationnel

Étant donné que des milliards de transactions se produisent quotidiennement, détecter les anomalies frauduleuses et exécuter un modèle en temps réel est un défi. Une inspection visuelle met en évidence que trouver une aiguille dans une botte de foin revient à trouver une aiguille. Les images suivantes illustrent des transactions bancaires au fil du temps, avec les transactions légitimes en vert et les frauduleuses en rouge. Il est difficile d'isoler les transactions frauduleuses. Les institutions financières sont tenues de tenter de lutter contre la fraude pour se conformer aux réglementations. C'est également une attente des clients. Habituellement, lorsqu'une fraude se produit, l'institution financière en assume le coût pour maintenir la satisfaction du client.

Nuage de points des transactions par carte de crédit

Graphique à bulles empaquetées des transactions par carte de crédit

Les organisations se tournent de plus en plus vers des méthodes d'apprentissage automatique dans le cadre de leurs parcours de transformation numérique pour résoudre des problèmes nécessitant une mise à l'échelle telle que la détection de fraudes. De nombreux indicateurs pour détecter la fraude sont généralement stockés dans des entrepôts de données. Les techniques de comptabilité médico-légale sont également assez avancées pour déterminer les mesures utilisées comme entrées pour les modèles d'apprentissage automatique.

Les forêts d'isolation ont été appliquées à l'ensemble de données de cartes de crédit Kaggle [2] et se sont révélées efficaces à 99 % dans la détection des transactions frauduleuses [3]. Étant donné qu'une approche générale qui fonctionne a été déterminée, la plupart des organisations sont confrontées à des défis de mise en œuvre à grande échelle plutôt que de devoir effectuer des recherches & développer une solution.

Données organisationnelles disponibles en tant qu'entrées ML

Les sources de données utilisées par les institutions financières sont les suivantes :

Métadonnées client.
Horodatages et montants des transactions.
Historique des transactions des clients.
L'emplacement géographique des transactions.
Loi de Benford.

Méthodologie d'intégration

Voici un aperçu du processus que nous effectuerions à un niveau élevé pour analyser de tels flux au sein d'une organisation :

Identifier les métriques financières des systèmes ERP qui peuvent être utilisées comme entrées.
Entraîner une forêt d'isolation sur un jeu de données initial, et continuer à entraîner le modèle à l'avenir pour s'assurer qu'il détecte les modèles de transactions frauduleuses les plus récents.
En appelant les API de Telemus AI™ pour exécuter la Forêt d'Isolation sur les transactions entrantes, l'API renvoie une estimation probabiliste de la probabilité d'une transaction frauduleuse basée sur le modèle.
Configurer des flux de travail et des processus personnalisés pour alerter l'équipe anti-fraude ainsi que les clients sur les transactions potentiellement frauduleuses

Telemus AI™ dispose de modèles d'apprentissage automatique robustes prêts à l'emploi afin que votre organisation puisse se concentrer sur la logique métier plutôt que sur la mise en œuvre technique.

Applications organisationnelles

La liste suivante présente d'autres applications potentielles pour votre organisation :

Détection des transactions frauduleuses.
Détection des demandes d'indemnisation frauduleuses des employés.
Détermination des comportements organisationnels inhabituels via les systèmes de suivi des ressources humaines.

Avantages potentiels et réalisés

Compte tenu de l'ampleur du temps et de l'argent que coûte la fraude financière, ainsi que des dommages à la réputation et de l'insatisfaction des clients qu'elle peut causer, la prévention active de la fraude peut permettre d'économiser jusqu'à des millions, voire des milliards de dollars, selon l'ampleur des opérations. Les organismes de réglementation publient également continuellement des directives de conformité plus strictes. Il est attendu des institutions financières qu'elles disposent de processus, de procédures et de systèmes pour prévenir et combattre la fraude. Les technologies de réglementation, ou RegTech, sont un domaine émergent qui a le potentiel de stimuler de nombreuses innovations au sein des départements opérationnels de nombreuses organisations à l'avenir.

Telemus AI™ est une entreprise d'intelligence artificielle basée en Australie, fournissant des solutions avancées aux gouvernements et aux entreprises. Contactez-nous dès aujourd'hui pour une consultation gratuite sur la façon dont Telemus AI™ peut être intégré à votre organisation.

Références

[1] - Isolation Forest - Fei Tony Liu, Kai Ming Ting, et Zhi-Hua Zhou
[2] - Détection de fraude par carte de crédit - Kaggle
[3] - Apprentissage automatique dans la détection de fraude par carte de crédit - S Joel Franklin

Étiquettes