ChatGPT n’est pas prêt pour renseigner directement les voyageurs de la SNCF lorsqu’ils veulent changer leur billet de train, accéder à leur titre de transport ou aux horaires de trains. C’est ce que l’on retient de l’intervention des équipes internes de la SNCF qui ont testé cette intelligence artificielle générative. La SNCF a fait un point d’étape à l’occasion du salon Viva Tech 2023.
Des réponses totalement erronées ayant l’apparence d’être bonnes
Les tests à la SNCF ont montré que ChatGPT peut répondre n’importe quoi avec l’apparence de la plus solide crédibilité, ce que les spécialistes appellent les « hallucinations » des LLM (Large Language Models). Pour rappel, ChatGPT parle par exemple avec certitude de l’existence d’œufs de vache comme si cela était une réalité. Avec ChatGPT, la réponse dans certains cas a l’air bonne alors qu’elle est complètement erronée.
Les tests de la SNCF ont fait apparaître les « hallucinations » de ChatGPT lors de réponses plausibles mais fausses
Quant aux horaires de trains entre Paris et Nantes, la réponse de ChatGPT en apparence très carrée, fait référence à des trains intercité roulant la nuit, alors que ce type de trains n’existe pas entre les deux villes et encore moins la nuit. « Pour un utilisateur non expert, il est très difficile de réussir à déceler ces erreurs car les réponses apportées sont dans le domaine du possible » constate-t-elle.
La version pré-entraînée de ChatGPT n’est pas satisfaisante
La période est toujours aux tests. « ChatGPT, c’est puissant. Pour l’instant, on teste. Dans sa version pré-packagée, pré-entraînée sur l’entièreté web, ce n’est pas une réponse satisfaisante » résume-t-on côté SNCF. Pour l’heure, les équipes de la SNCF vont poursuivre les tests avec d’autres algorithmes, sur d’autres solutions de LLM à la fois en Open Source, comme Bloom, ou des solutions telles que celle de Google. La SNCF souhaite entraîner des modèles sur ses propres bases de données, probablement avec celui de Google, cela n’ayant pas été fait avec ChatGPT.
« Nous avons testé Bloom, mais pour l’instant les performances ne sont pas satisfaisantes »
Une question se pose notamment de la mesure de la justesse des réponses fournies par l’IA générative. « Avec l’IA générative, il est assez compliqué pour nous de mesurer le succès [NDLR : c’est-à-dire si la réponse est correcte]. Au vu des exemples que nous vous avons présentés, on ne se voit pas mettre cela en frontal avec nos clients parce que la réponse a l’air bonne alors qu’elle est complètement erronée » réagit-on chez SNCF.
Difficile de mesurer le nombre de réponses justes
Les fournisseurs n’ont pas non plus de réponse. « L’IA génère le texte de la réponse. Il est difficile pour nous d’avoir des données de vérification de la justesse, à part le ‘test and learn’. On se pose ces questions. Nous interrogeons les différents partenaires et les Gafa qui proposent des modèles de LLM. Pour l’instant nous n’avons pas de réponse claire de leur part non plus sur comment on se rassure et on suit un KPI de justesse de réponse » poursuit-on à la SNCF. « Beaucoup de choses devraient s’améliorer dans le temps et beaucoup d’acteurs arrivent sur le marché, qui vont probablement faire aussi bien voire mieux » pense-t-on à la SNCF.
« On peut envisager de mettre l’IA générative plutôt devant les conseillers clientèle dans un premier temps«
Le modèle d’IA proposerait des réponses aux conseillers. Les conseillers pourraient faire un feed-back. Ils ont la connaissance et pourraient dire si le modèle d’IA répond de manière juste ou fausse. Cela permettrait de mesurer son efficacité, sa justesse et de savoir quand la SNCF est prête à le mettre en face d’un client. Le projet est traité par Charlotte Percher-Brard, responsable Data Science chez SNCF Connect&Tech et Ludovic Grauser, Head of Product chez SNCF Connect&Tech.
Répondre plus rapidement et plus humainement aux clients
Lors du lancement des tests de ChatGPT, les promesses perçues par la SNCF étaient de pouvoir répondre plus rapidement aux clients qu’un conseiller clientèle, que les interactions seraient plus humaines comme si l’on parlait à quelqu’un avec une réponse très adaptée à la question posée, une amélioration par rapport aux chatbots connus jusqu’à présent, et que les réponses seraient plus pertinentes et exhaustives pour répondre à des questions plus larges. Côté équipes internes à la SNCF, la promesse était de réduire la maintenance de la base de connaissances employée pour répondre aux clients car les horaires de trains et les tarifs changent. ChatGPT pourraient aider les conseillers clientèle à traiter plus de clients.
Le système testé a associé ChatGPT et Tock (The Open Conversation Kit), une solution Open source développée par la SNCF
Par ailleurs, la SNCF considère qu’il faut prendre en compte les risques de cyber sécurité sur ses systèmes d’information et la confidentialité des données. Enfin, la compagnie retient que ces modèles de langages sont très consommateurs de ressources informatiques.