Pour entraîner une IA, les chercheurs utilisent un vaste corpus constitué d'articles, blogs, forums, livres… La composition de cet ensemble de textes a une influence directe sur le chatbot et ses réponses, mais elle est tenue secrète : seuls ses créateurs savent ce qu’il y a dans cette boîte noire. David Bamman, professeur à Berkeley (Californie), s’est amusé à faire l' « archéologue de données » pour découvrir ce que GPT-4 a lu et mémorisé …