Une étude franco-européenne révèle des performances surprenantes des LLM en français. Certains modèles Llama surpassent même leurs résultats anglais sur la détection de stéréotypes, bouleversant les idées reçues.
Le paradoxe français des modèles ling…
© L'entreprise Intelligente
Une étude franco-européenne révèle des performances surprenantes des LLM en français. Certains modèles Llama surpassent même leurs résultats anglais sur la détection de stéréotypes, bouleversant les idées reçues.
L'intelligence artificielle réserve encore des surprises. Contrairement aux idées reçues, tous les grands modèles de langage (LLM) ne sont pas systématiquement moins performants en français qu'en anglais. C'est ce que révèle le benchmark Phare, développé par l'entreprise française Giskard en partenariat avec Google DeepMind, selon Silicon (France).
Cette évaluation comparative, menée sur une cinquantaine de modèles, démontre que certains LLM affichent des capacités de résistance aux biais supérieures en français. Llama 4 Maverick atteint ainsi un score de 0,775 en français contre seulement 0,688 en anglais pour l'autoévaluation des stéréotypes. Un écart significatif qui interroge sur les mécanismes d'entraînement de ces modèles.
Cet article est réservé aux abonnés
Accédez à l'intégralité de l'actualité AI pour les PME françaises
à partir de 4,90 € / mois.