Dossier: Commerce Illicite

Exploiter les mégadonnées : Le parcours de la Douane chinoise vers une gestion des risques intelligente basée sur les données

30 octobre 2024
Par l’Administration générale des douanes de la République populaire de Chine

En 2022, l’OMD et ses Membres ont défini la technologie et l’innovation comme l’un des trois domaines d’attention du Plan stratégique de l’OMD pour la période 2022-2025. Au cours des dernières années, la Douane chinoise s’est attachée à appliquer le concept «  une douane, une frontière et une connectivité intelligentes »[1] au titre duquel a été établie une feuille de route qui vise à déployer des solutions numériques et intelligentes aux fins des contrôles douaniers, de la gouvernance et de la coopération. Sa mise œuvre a notamment amené la Douane chinoise à se pencher sur les façons d’intégrer les mégadonnées et l’intelligence artificielle (IA) à ses outils d’analyse des données.

Il peut être utile d’expliquer, à titre d’introduction, les termes principaux qui seront utilisés dans le présent article, comme les données, les informations ou renseignements, les constatations, l’analyse ou analytique des données, les mégadonnées ou big data, ou encore l’IA. Les administrations des douanes cherchent à prendre des décisions en toute connaissance de cause, sur la base de constatations qui sont basées sur des informations ou des renseignements puisés dans des données qui ont été traitées, organisées, structurées ou présentées dans un contexte pertinent. On entend par analyse (ou analytique) des données la formulation de constatations à partir de données grâce à l’analyse systématique de ces données par ordinateur. Les mégadonnées ou big data désignent des jeux de données qui contiennent des données d’une plus grande variété (des données structurées et non structurées, du texte, de l’audio ou de la vidéo, des mesures provenant de capteurs, des informations collectées sur les réseaux sociaux et autres), d’une grande véracité, arrivant en volumes croissants et à une grande vitesse. Pour ce qui a trait à l’IA, l’expression désigne des systèmes qui sont entraînés pour utiliser des informations en vue de mener certaines tâches, comme le relevé de tendances ou la génération de contenu nouveau.

En 2018, une Division de gestion des mégadonnées a été créée au sein du Département de gestion des risques douaniers de la Douane de Chine, afin de coordonner la gestion des données douanières, d’établir une architecture de données unifiée, de formuler des plans, des systèmes et des arrangements à cet effet et de les mettre en place. Des équipes ont été créées dans les districts douaniers de Tianjin, de Shanghai, de Hunagpu et de Jiangmen pour favoriser l’accompagnement de projets relatifs à l’IA. Des effectifs d’autres divisions ont été réaffectés pour travailler ensemble sur des projets spéciaux en vue de mettre au point des modèles d’IA. Les tâches de détection des risques et de ciblage précédemment menées par des êtres humains ont graduellement été remplacées par des processus informatiques. Après cinq ans de recherche et de développement, de projets pilotes et d’activités de promotion, la démarche a été adoptée dans 260 ports maritimes et aéroports dans tout le pays. En 2023, 22 642 déclarations ont été contrôlées grâce aux nouveaux outils analytiques, avec un taux de détection dépassant de loin ceux obtenus par l’analyse humaine.

Construire une base de données unifiée

La Douane chinoise recueille systématiquement des données auprès de diverses sources et elle a ainsi pu constituer un lac de données comprenant plus de 15 000 tables de données et plus de 260 milliards d’unités de donnée saisies localement de manière centralisée.

Les données proviennent essentiellement de cinq sources :

  • les données douanières internes, dont il existe plus de 300 types, comme les données puisées dans les déclarations en douane, les données des manifestes, les données des inspections, les données de lutte contre la contrebande et les données de gestion des entreprises ;
  • les données d’autres organismes gouvernementaux, comme les données fiscales, les données de marché, les données de facture, les données sur les devises étrangères et les données sur les voyageurs ;
  • les données des administrations des douanes ;
  • les données commerciales achetées auprès de sociétés de services de données ;
  • les données disponibles au public sur Internet.

Ces données sont physiquement stockées sous des formats unifiés qui jettent les bases permettant le recours aux applications d’IA en vue de trouver les indices cachés et de recenser les risques.

Construire des ensembles de données pour chaque activité

Le lac de données est ensuite utilisé pour créer des ensembles de données multiples suivant un modèle « d’un ensemble par activité ». En fonction des caractéristiques des différentes activités douanières, comme le dédouanement, la surveillance, le contrôle des risques, le contrôle des marchandises, les tarifs douaniers, la gestion des entreprises et le contrôle a posteriori, les données pertinentes dans le lac de données sont identifiées et rassemblées dans une table (ou tableau) qui sert d’ensemble de données aux experts afin qu’ils puissent mener leurs analyses. À ce jour, la Douane chinoise a mis en place plus de 100 ensemble de données, reliant divers systèmes cloisonnés de bas en haut et permettant aux données de circuler pleinement entre les différents systèmes.

Mettre en place une plateforme d’analyse des données

Une plateforme a été créée pour permettre aux effectifs de la Douane d’utiliser plus facilement les données, de créer une culture de la donnée et faire de chaque fonctionnaire de la Douane un analyste des données. Baptisée « Cloud Engine » (ou moteur infonuagique), la plateforme compte plus de 3 000 usagers actifs au quotidien. Plus de 28 000 analyses sont menées tous les jours sur la base d’un des modèles analytiques ou d’une des applications stockés sur la plateforme. En 2023, 2 917 cas de fraude ont pu être détectés par ce biais.

Créer un portail de données unifié

Un portail de données a été mis sur pied pour offrir un point d’accès unique à toutes les données et à tous les catalogues de données existants, le but étant d’aider les usagers à trouver plus facilement les données qu’ils cherchent.

Construire des modèles intelligents

Si elle soutient la capacité des douaniers à effectuer des analyses de données via la plateforme « Cloud Engine », la Douane chinoise cherche aussi à automatiser le processus d’analyse des risques et elle se penche à ce titre sur l’utilisation d’un modèle d’apprentissage automatique créé à partir d’algorithmes.

Sur la base de données historiques puisées tant dans les sources douanières internes qu’externes, le modèle utilise les algorithmes de source ouverte Catboost/XGBoost pour construire un programme qui fournit une notation des risques en temps réel pour chaque déclaration en douane, chaque entreprise et chaque marchandise. Le modèle est connecté au système de gestion des risques douaniers afin qu’il puisse relever les risques sur les déclarations en douane en cours de dédouanement.

Le modèle a été construit comme suit :

  • une base de données a été créée en utilisant des données douanières internes et externes, notamment des formulaires de déclaration en douane, des manifestes, des rapports d’entreprise, des documents de logistique, des rapports d’inspection, des dossiers de lutte contre la contrebande, des résultats d’audit et d’autres vérifications, des informations sur les flux financiers et sur les assurances.
  • une bibliothèque de 105 caractéristiques de risques a été mise sur pied, dont 76 sont dérivées des indicateurs de risque présentés dans le Recueil de l’OMD sur la gestion des risques en matière douanière. Certaines ont été mises au point en se basant sur l’expérience des experts tandis que d’autres ont été calculées en recourant aux algorithmes.
  • l’algorithme d’IA CatBoost, qui a été utilisé pour construire le modèle, attribue une valeur à chaque déclaration de douane. Deux seuils ont été fixés : un seuil à haut risque T1 et un seuil à faible risque T2. Les marchandises couvertes par des déclarations présentant une valeur dépassant le seuil T1 sont retenues et contrôlées ; les marchandises couvertes par des déclarations dont la valeur prévisionnelle est en-deçà du seuil T2 sont rapidement libérées, tandis que les déclarations dont la valeur se situe entre les seuils T1 et T2 sont renvoyées à des experts.

Après cinq ans de développement et de tests, le modèle a été déployé à l’échelle nationale. Nous avons constaté que le modèle est plus efficace que les contrôles aléatoires et permet de découvrir des risques que les agents chargés du ciblage n’auraient pas forcément détectés, comme des risques associés à de nouvelles entreprises ou marchandises. Enfin, le modèle garantit la cohérence des contrôles, à la différence du personnel de ciblage, dont les capacités et les normes en matière de lutte contre la fraude diffèrent partout dans le pays.

Pour gérer l’intégralité du cycle de vie du modèle, la Douane chinoise a élaboré des « mesures de gestion du modèle d’application des mégadonnées douanières » qui normalisent les processus de recherche et de développement, de test, de promotion et de déclassement du modèle. En même temps, un système d’indice d’évaluation de la performance du modèle a été mis en place pour jauger régulièrement son efficacité et procéder à des ajustements dynamiques.

De plus, d’autres recherches et essais ont été menés dans des domaines fondamentaux et à différentes étapes des opérations de dédouanement. Ce travail a abouti à l’élaboration de modèles multiples, développés séparément. Des modèles ont notamment été bâtis pour identifier les déchets solides, les produits dangereux et les marchandises achetées en ligne. D’autres contrôlent les déclarations en douane et les certificats. Tous font partie d’un ensemble de modèles. L’objectif est de disposer d’un modèle d’IA pour n’importe quelle activité douanière, de remplacer les interventions manuelles par ces modèles, et de construire, en définitive, une administration douanière moderne, numérique et intelligente qui s’appuie sur des données et des modèles.

Voie à suivre

Après des années de recherche et de pratique, la Douane chinoise est convaincue que les administrations douanières devraient s’engager davantage dans l’utilisation de l’IA mais aussi approfondir la coopération entre elles dans ce domaine. C’est pourquoi en 2023, elle a lancé, avec le Secrétariat de l’OMD, son Projet sur les douanes intelligentes qui vise à faciliter les échanges entre administrations des douanes sur l’application des technologiques et sur toute solution innovante. Outre le partage d’informations et d’expériences, la Douane chinoise croit fermement que les efforts de collaboration dans le domaine de l’IA seraient profitables pour tous. Il pourrait s’agir notamment de créer une plateforme où les administrations peuvent coopérer sur la base d’accords bilatéraux ou multilatéraux.

En savoir +
Gao Fengrong
gaofr@sina.cn

[1]Smart Customs, Smart Border, Smart Connectivity”