Aller au contenu principal

Les données sont quasi-omniprésentes dans le monde actuel et leur volume mondial ne cesse d’augmenter chaque année jusqu’à atteindre les 50 zettaoctets pour l’année 2020 ce qui représente 6 millions de films haute définition d’une durée de 2h. Ce chiffre impressionnant montre l’importance des données de nos jours, surtout pour les entreprises qui souhaitent devenir data-driven et incorporer les données dans leurs prises de décisions. Pour accompagner cette augmentation du volume, la mise en qualité des données est un prérequis indispensable à l’utilisation efficiente des données de l’entreprise, et plus largement à tout projet de Data Science. 

 

À un moment où les entreprises se tournent de plus en plus vers une stratégie ancrée autour des données, Heka.ai propose une série de deux articles : un premier article visera à quantifier de manière pragmatique le problème de la qualité des données sur la base de données de nos partenaires étudiées avec SmartDataQuality.ai, le second préconisera une approche pour adresser la problématique de qualité des données dans l’entreprise.

 

Quantifier le problème de la qualité des données grâce à notre solution SmartDataQuality.ai

Les projets menés avec nos clients sur leur qualité de données nous ont amenés à imaginer une solution générique permettant d’adresser ce challenge commun à tous les secteurs. C’est la genèse de notre solution : SmartDataQuality.ai. Notre outil permet notamment de : 

  • Détecter les doublons au sein de vos bases de données, principalement les faux doublons. À titre d’illustration : les bases de données clients sont composées de nombre de doublons difficilement repérables comme “Mathieu Martin” et “Martin Mathieu”. Grâce à la valorisation de méthodologies d’intelligence artificielle, notre solution est capable de repérer ces doublons avec un indice de confiance associé, 
  • Enrichir les bases de données, avec des informations externes en rapprochant intelligemment différents référentiels. Smart Data Quality est capable d’enrichir les bases de données clients avec des informations socio-démographiques (comme le revenu médian, la répartition des tranches d’âge, …), des informations sur la parcelle cadastrale de l’adresse (comme la surface du terrain, la surface habitable, …). En se donnant la capacité de croiser plusieurs informations, les incohérences apparaissent plus facilement. Plus globalement, l’enrichissement de bases de données constitue un véritable levier pour permettre à l’entreprise d’optimiser ses processus : les communications auprès des clients pourront être plus pertinentes par exemple, 
  • Réaliser des diagnostics sur la qualité des données en quelques clics. SmartDataQuality.ai permet par exemple de diagnostiquer la qualité des adresses présentes dans une base de données ou la véracité des valeurs numériques.
  • Réaliser des traitements de normalisation de données : SmartDataQuality.ai repère les similitudes et propose des normalisations de colonne en se basant uniquement sur l’analyse du fichier de données. 

 

De plus, l’ensemble de ces algorithmes pourront être sauvegardés afin d’analyser leur performance, mais également de les appliquer ultérieurement sur d’autres bases de données.

Image 1

Quelques chiffres concrets autour de la qualité de données :

Pour quantifier globalement ce problème de la qualité de données, nous avons mené une étude en collaboration avec plusieurs partenaires auxquels nous avons proposé des diagnostics gratuits de leurs bases de données. Cette étude a débouché sur les chiffres suivants : 

Ces indicateurs peuvent sembler abstraits, mais ont une réalité opérationnelle forte : 

  • Près de 10 % des coûts de communications sortantes peuvent être réduits par le traitement de doublons dans les bases de données clients, 
  • Près d’un quart des activités opérationnelles, comme un entretien téléphonique avec un client ou une intervention de maintenance, peuvent être améliorées en comblant les données manquantes, 
  • Une bonne qualité de données peut éviter que près de 5 % des factures clients soient envoyées à la mauvaise adresse voire contenir des informations erronées.

 

De manière générale, cette mauvaise qualité de données s’explique par des erreurs humaines : erreurs de typographies, oublis de saisies de données. Elle peut également être due à une mauvaise communication entre les différentes entités de l’entreprise, voire à des processus métiers perfectibles. Ces erreurs induisent des coûts importants pour les entreprises. Des études ont montré que 1 à 5 % de données erronées entraînent une augmentation des coûts opérationnels de 8 à 12 %. Au-delà des coûts, la mauvaise qualité de données freine la volonté de l’entreprise de devenir data-driven, car elle induit :

  • Des décisions risquées voire inadaptées.
  • Une inefficacité des activités et processus basés sur les données.
  • Très peu de confiance envers les résultats obtenus.
  • Des opportunités manquées.
  • Une perte de revenus.

 

Nous verrons dans une publication ultérieure nos préconisations sur comment adresser cette problématique de manière globale dans l’entreprise. Si vous êtes intéressés pour réaliser un diagnostic gratuit d’une de vos bases de données, n’hésitez pas à nous contacter sur l’adresse smartdataquality@sia-partners.com.

 

Partager

Nos publications

Customer churn with IA and Heka

Prédire le churn client avec l’IA

Grâce à l’exploitation des données et d’outils de Machine Learning, les entreprises peuvent améliorer de façon significative leurs activités. Le Machine Learning est un champ d'étude de l'intelligence artificielle qui permet de donner à une IA la capacité d’« apprendre » à partir de données.

2025

Lire
Clustering data for client from Heka

Visualisation et clustering des données de…

L'analyse des données de parcours clients, en particulier celles de parcours d'achat, est une étape essentielle en data marketing afin de mieux comprendre comment les clients perçoivent et interagissent avec différents produits et services d'une marque.

2025

Lire
Open data and prediction by Heka

L’open data pour la prédiction à maille fine

Alors que les IAs continuent de battre des nouveaux records, une révolution plus silencieuse prend forme dans la sphère Big Data. Il s’agit de celle de l’open data.

2025

Lire