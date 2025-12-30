Si un texte tel que la Déclaration d’Indépendance peut être signalé par un détecteur d’IA, ce n’est pas en raison d’un doute historique, mais en raison du fonctionnement même de ces outils. Ils ne cherchent pas, en effet, à identifier une provenance ou un auteur, mais à estimer une probabilité à partir de caractéristiques statistiques de style, comme la régularité syntaxique ou la structure argumentative. Un texte très formel peut ainsi être assimilé à tort à une production artificielle.

OpenAI cite explicitement ce type d’erreur dans un document destiné aux enseignants. L’entreprise y explique que, lors de tentatives de mise au point d’un détecteur de contenus générés, celui-ci a classé comme issus de l’intelligence artificielle des textes pourtant écrits par des humains, notamment des œuvres de Shakespeare et la Déclaration d’Indépendance. Ce constat l’amène à une conclusion claire : selon son expérience, les détecteurs d’IA ne fonctionnent pas de manière suffisamment fiable.

Des « scores » à manier avec précaution

Cette prudence est également présente dans les publications techniques d’OpenAI. Lors du lancement de son propre classifieur de textes, l’entreprise indiquait que cet outil n’était pas totalement fiable et reconnaissait l’existence de faux positifs, c’est-à-dire de textes rédigés par des humains mais identifiés à tort comme générés par une IA. Ces limites sont présentées comme inhérentes à ce type de technologie.

Dans le monde universitaire, cette question est particulièrement sensible. Turnitin, une plateforme d’intégrité académique largement utilisée par les établissements pour analyser des devoirs (rapports de similarité et indicateurs d’écriture IA), insiste sur le fait que ses résultats doivent être interprétés avec prudence. L’entreprise précise que son modèle de détection peut se tromper et qu’il ne doit pas constituer, à lui seul, la base d’une décision défavorable à l’encontre d’un étudiant.

En pratique, cela signifie qu’un pourcentage « IA » ne démontre pas l’origine d’un texte. Il peut au mieux servir de signal invitant à un examen plus approfondi, en tenant compte du contexte, du processus de travail et du jugement humain. Le cas d’un document historique incontestable, malgré tout signalé par un détecteur, rappelle que ces outils produisent des estimations, et non des preuves.

Ce que mesurent ou non les détecteurs d’IA

Sur le plan technique, les détecteurs d’IA n’analysent pas l’origine d’un texte mais des signatures statistiques. Ils évaluent notamment la régularité des phrases, la prévisibilité du vocabulaire ou certains schémas syntaxiques, qu’ils comparent à des modèles entraînés sur de grands ensembles de textes humains et générés. Le résultat prend la forme d’une probabilité, pas d’une identification.

Ce mode de fonctionnement explique pourquoi des textes très formels ou structurés peuvent être signalés à tort. Des analyses sectorielles montrent que les écrits juridiques, académiques ou historiques présentent souvent des caractéristiques proches de celles produites par des modèles de langage, ce qui augmente mécaniquement le risque de faux positifs.

Les chercheurs soulignent également que ces outils ne procèdent pas à une compréhension sémantique du contenu. Ils se fondent sur des corrélations de surface, ce qui limite leur capacité à distinguer un texte humain élaboré d’un texte généré, en particulier lorsque les styles se recouvrent.

Que disent la recherche et les cas concrets ?

Plusieurs études scientifiques ont évalué ces limites. Une recherche publiée dans Acta Neurochirurgica (Springer Nature) conclut que la précision des détecteurs reste insuffisante dans un cadre académique, avec des erreurs notables dès que les textes sont techniques ou rédigés dans un style soutenu. Les auteurs alertent aussi sur les implications éthiques d’un usage non contextualisé.

Ces limites ont déjà produit des effets concrets. En Australie, l’Australian Catholic University a suspendu l’usage du détecteur d’IA de Turnitin après que des étudiants ont été accusés à tort sur la seule base de scores automatisés, une affaire relayée par la presse nationale. D’autres analyses estiment que, selon les contextes, plus de 15 % de textes rédigés par des humains pourraient être signalés à tort.

En France, des situations comparables ont déjà été relayées. En 2025, une lycéenne parisienne a été accusée d’avoir eu recours à une intelligence artificielle lors de l’épreuve de philosophie du baccalauréat, après avoir composé sur ordinateur. L’accusation a finalement été levée : l’administration a reconnu une erreur et la candidate a obtenu son diplôme.

Cet épisode illustre les limites des signalements uniquement fondés sur des indices techniques ou stylistiques. En l’absence de méthode permettant d’identifier avec certitude l’origine d’un texte, un écrit jugé trop fluide ou trop structuré peut susciter un soupçon sans qu’une preuve objective ne puisse être établie.

Dans ce contexte, plusieurs organisations spécialisées dans l’intégrité académique recommandent de traiter les scores de détection comme des signaux faibles. Ils peuvent alerter ou orienter une vérification, mais ne remplacent ni l’analyse du processus de rédaction ni l’évaluation humaine.

