La qualité des données : le carburant sans gloire de l'IA commerciale

Votre couche IA vaut exactement ce que valent les données qu'elle lit. Guide de terrain des problèmes de données qui sabotent silencieusement les déploiements — et comment les corriger.

La qualité des données : le carburant sans gloire de l'IA commerciale

Tous les déploiements d'IA décevants que nous avons examinés partageaient le même résultat d'autopsie. Ce n'était presque jamais le modèle. C'était les données : la FAQ qui contredisait les CGV, le catalogue produit avec trois prix différents pour la même référence, le CRM où un tiers des clients existaient en double, la politique de livraison mise à jour sur le site mais pas dans le document que l'IA lisait réellement.

Une couche IA est un magnifique amplificateur. Nourrissez-la de vérité et elle distribue la vérité à grande échelle, instantanément, dans toutes les langues. Nourrissez-la de contradictions et elle les distribue avec la même efficacité. Avant de demander « l'IA est-elle intelligente ? », la question productive est : ce que nous allons lui connecter est-il vrai ?

Les quatre cavaliers de la mauvaise donnée

Des années d'intégrations nous ont appris que les problèmes de données viennent en quatre saveurs répétables.

La contradiction. La page retours dit 30 jours ; le PDF des conditions dit 14 ; la réponse type que votre équipe utilise vraiment dit 30 « par geste commercial ». Un agent humain résout cette ambiguïté silencieusement par folklore — « on honore toujours 30 ». L'IA n'a pas de folklore. Elle trouvera la contradiction et, selon la chance de la récupération, donnera des réponses différentes à des clients différents. Le correctif n'est pas technique : quelqu'un doit décider quelle réponse est vraie et tuer les autres.

L'obsolescence. Les prix du trimestre dernier, les horaires d'avant le déménagement, le produit arrêté toujours listé comme disponible. L'obsolescence est insidieuse parce que la donnée a été correcte un jour — personne ne l'a marquée comme fausse ; le monde a simplement bougé. Le correctif, c'est la propriété et les cycles de revue : chaque source de connaissance a besoin d'un propriétaire nommé et d'une date de péremption, comme les produits d'un frigo.

La fragmentation. La réponse existe, mais en six endroits : la moitié dans le CRM, un quart dans un tableur, le reste dans la tête d'un employé vétéran. L'IA ne peut être plus complète que l'union de ce qu'elle atteint — c'est pourquoi, chez Eryvo, nous traitons l'étendue d'intégration comme un instrument de qualité des données, pas seulement comme une liste de fonctionnalités. Chaque système connecté est un fragment réuni.

Les doublons et la dérive. Deux fiches client pour la même personne, avec des e-mails différents et des historiques différents. L'IA personnalise magnifiquement — contre la mauvaise moitié du client. La déduplication est ennuyeuse, et c'est un prérequis.

L'audit qui prend un jour et économise six mois

Avant de déployer une couche IA, faites cet exercice. Prenez vos 50 vraies questions clients les plus fréquentes (votre équipe support peut les lister de mémoire). Pour chacune, demandez : où vit la réponse correcte ? Est-elle à jour ? Une autre source la contredit-elle ? Peut-on trouver la réponse en lisant, ou faut-il demander à Sandra de la logistique ?

Le résultat est une carte de votre maturité — et généralement un choc. La plupart des entreprises découvrent que pour environ un tiers de leurs questions les plus courantes, la réponse faisant autorité n'existe nulle part par écrit. Ce n'est pas un problème d'IA. L'IA a juste rendu visible un problème que vos clients vivaient en silence depuis des années : le savoir de votre organisation vivait dans des personnes, pas dans des systèmes.

La structure bat le volume

Une leçon contre-intuitive : moins de données, mieux organisées, surpassent plus de données, déversées. Les équipes veulent instinctivement tout connecter — chaque PDF jamais écrit, tout le wiki, des années d'archives d'e-mails. Résistez. Les vieilles propositions, les politiques dépréciées et les brouillons internes n'ajoutent pas de couverture ; ils ajoutent du bruit qui concurrence la vérité au moment de la récupération.

Le schéma performant est un noyau curé : un document faisant autorité par sujet, clairement daté, formulé sans ambiguïté, dans la langue naturelle des clients plutôt qu'en jargon interne (« délai de livraison » bat « SLA logistique »). Autour de ce noyau, les systèmes vivants — inventaire, commandes, agendas — fournissent les faits dynamiques. Tout le reste demeure déconnecté jusqu'à ce que quelqu'un plaide son entrée.

Écrire pour la machine (c'est-à-dire : écrire clairement)

Bonne nouvelle : le style d'écriture que l'IA récupère le mieux est exactement celui que les humains lisent le mieux. Phrases courtes et déclaratives. Une politique par paragraphe. Conditions explicites (« Pour les commandes de plus de 100 €... » plutôt que « dans certains cas... »). Exemples concrets. Des dates partout. Améliorer votre base de connaissances pour l'IA l'améliore pour chaque humain qui la lira jamais — le travail de qualité des données est du travail UX déguisé.

La boucle de rétroaction que personne n'attend

Une fois déployée, la couche IA devient votre meilleur détecteur de qualité de données. Elle journalise chaque question restée sans réponse (lacunes de couverture), chaque contradiction rencontrée (détection de conflits), chaque réponse rejetée par les utilisateurs (signaux d'exactitude). Là où la qualité des données était une vertu invisible et immesurable, elle a désormais un tableau de bord. Les déploiements qui prospèrent font de cette boucle un rituel hebdomadaire : lire les lacunes, corriger les sources, regarder la résolution grimper.

Le résumé inconfortable

Les entreprises adorent acheter de l'intelligence et détestent nettoyer des données — l'un ressemble au futur, l'autre à des devoirs. Mais le classement des résultats est têtu : un modèle modeste sur des données propres, connectées et curées surpassera un modèle de pointe sur du chaos, à chaque fois. La bonne nouvelle cachée dans les devoirs : la qualité des données est entièrement sous votre contrôle, elle paie des dividendes à chaque système et chaque employé qui la touche, et contrairement aux capacités des modèles, personne ne peut la louer contre vous.

Vérité en entrée, vérité en sortie — à grande échelle. C'est tout le marché.