Hallucinations et garde-fous : l'ingénierie de la confiance dans l'IA

Les systèmes d'IA peuvent énoncer des faussetés avec une confiance parfaite. Voici la discipline d'ingénierie qui les garde honnêtes en contexte commercial.

Hallucinations et garde-fous : l'ingénierie de la confiance dans l'IA

En 2023, le chatbot d'une grande compagnie aérienne a inventé une politique de tarif deuil qui n'existait pas. Un client s'y est fié, la compagnie a refusé de l'honorer, un tribunal n'a pas été de cet avis — et l'entreprise a été tenue responsable de ce que son IA avait promis. L'affaire est devenue célèbre parce qu'elle cristallisait l'angoisse centrale de l'IA commerciale en une seule question : *que se passe-t-il quand la machine dit quelque chose de faux en votre nom ?*

Le nom technique est hallucination, et quiconque déploie de l'IA pour son entreprise mérite une explication directe de ce que c'est, pourquoi cela arrive, et — surtout — quelle discipline d'ingénierie la contient.

Pourquoi les systèmes fluides mentent

Les modèles de langage sont, au fond, des moteurs de prédiction : ils génèrent la continuation la plus plausible d'un texte. La plausibilité corrèle généralement avec la vérité — c'est pour cela qu'ils sont utiles — mais les deux ne sont pas la même chose. Interrogé sur une politique qu'il n'a jamais vue, le modèle n'éprouve pas l'absence de connaissance comme vous. Il continue simplement, plausiblement : et une politique de remboursement plausible est facile à générer. Pas de message d'erreur, pas d'hésitation, pas de baisse d'éloquence. C'est ce qui rend l'hallucination dangereuse : l'échec ressemble exactement au succès.

L'échelle a nettement amélioré les choses ; les meilleurs modèles actuels hallucinent bien moins que leurs ancêtres. Mais « bien moins » n'est pas « jamais », et une entreprise qui produit des milliers d'affirmations par jour en pilote automatique a besoin d'ingénierie, pas d'optimisme.

Garde-fou 1 : l'ancrage — ne jamais répondre de mémoire

La contre-mesure la plus efficace consiste à changer la provenance des réponses. Au lieu de demander au modèle « quelle est la politique de remboursement ? », un système ancré récupère le document réel et instruit : « réponds en utilisant uniquement ce texte ; s'il ne contient pas la réponse, dis-le. »

Cela déplace le travail du modèle du *rappel* (peu fiable) vers la *compréhension de lecture* (très fiable). Chez Eryvo, chaque affirmation factuelle d'un agent est arrimée à une source récupérée — vos documents, vos enregistrements, vos API en direct. La question « d'où vient cette réponse ? » a toujours une réponse.

Garde-fou 2 : les frontières — un univers de discours défini

Une couche IA commerciale doit avoir un périmètre explicite : ces sujets, ces actions, cette connaissance. Au-delà, le comportement correct est la redirection élégante ou l'escalade, pas l'improvisation. Cela semble restrictif ; c'est en réalité libérateur. Le système qui dit « je ne peux pas vous conseiller là-dessus, mais je peux vous mettre en relation avec quelqu'un qui le peut » gagne plus de confiance que celui qui hasarde une réponse de droit fiscal parce qu'un client a posé la question.

Les frontières s'appliquent aussi aux actions : un agent qui *fait* des choses a besoin d'une liste blanche de ce qu'il peut faire, par intégration, avec montants et seuils. Des mots hallucinés, c'est grave ; des actions hallucinées, c'est pire. Les mandats rendent la seconde catégorie structurellement impossible.

Garde-fou 3 : la vérification — contrôler avant d'expédier

Entre la génération et la livraison, les systèmes de production interposent des contrôles. Les affirmations factuelles se valident contre les données sources (le prix cité correspond-il au catalogue ? la commande citée existe-t-elle ?). Les règles métier agissent comme des contraintes dures — une remise au-dessus de X % ne peut tout simplement pas être exprimée, quoi que compose le modèle. Les sorties à fort enjeu sont routées vers un second modèle dont le seul travail est la relecture sceptique, ou vers un humain. Chaque couche attrape une part de ce qui a échappé à la précédente ; empilées, elles transforment un événement rare en événement infinitésimal.

Garde-fou 4 : l'honnêteté face à l'incertitude

Certaines questions n'ont pas de réponse sûre, et le système doit le dire plutôt que jouer la confiance. Le comportement calibré ressemble à : « Votre commande apparaît comme livrée, mais je vois que vous signalez le contraire — j'ouvre une enquête auprès du transporteur maintenant », au lieu d'une explication inventée et fluide sur l'endroit où serait le colis. Les clients récompensent systématiquement cette honnêteté dans les données de satisfaction. Il s'avère que les gens n'ont pas besoin que les machines soient omniscientes ; ils ont besoin qu'elles ne bluffent pas.

Garde-fou 5 : la piste d'audit

Enfin, tout est journalisé : ce qui a été demandé, ce qui a été récupéré, ce qui a été répondu, quelles actions ont été prises sous quelle règle. Quand quelque chose tourne mal — l'ingénierie signifie *rarement*, pas *jamais* — la piste rend l'incident diagnostiquable et corrigeable, et clarifie les responsabilités. L'affaire de la compagnie aérienne a appris à l'industrie que « c'est l'IA qui l'a dit » n'est pas une défense juridique. La conclusion opérationnelle : faites tourner votre IA de sorte que vous puissiez assumer chaque phrase qu'elle produit. Avec l'ancrage, les frontières, la vérification, la calibration et l'audit, c'est un standard atteignable, pas un slogan.

La confiance est le produit

Voici le point profond. En IA commerciale, la confiance n'est pas une propriété agréable posée sur le produit — elle *est* le produit. Une couche IA en laquelle vos clients n'ont pas confiance sera contournée (« tapez AGENT »), et une couche en laquelle votre équipe juridique n'a pas confiance sera débranchée. Tout le reste — vitesse, personnalisation, disponibilité — ne compte qu'une fois la véracité assurée.

C'est pourquoi nous traitons les garde-fous non comme une case de conformité mais comme de l'ingénierie de cœur, à égalité avec la capacité. Un système qui agit en votre nom doit d'abord être un système qui dit la vérité en votre nom. La technologie pour rendre cela massivement fiable existe aujourd'hui. Exigez-la — de nous, et de quiconque vous évaluez.