Tribune & Tendances IAOutils IA

GPT-5.4 résout un problème d'Erdős vieux de 60 ans, vérifié en Lean (2026)

5 mai 2026 · 12 min de lecture

Partagerin𝕏
Un cahier d'écolier ouvert posé sur un bureau en bois sombre, une équation manuscrite à l'encre noire au centre, une plume métallique posée à côté, baignés dans la lumière chaude d'une lampe de bureau jaune

GPT-5.4 résout un problème d'Erdős vieux de 60 ans, vérifié en Lean (2026)

Le problème d'Erdős #1196, ouvert depuis les années 1960, est marqué PROVED (LEAN) sur la base de référence erdosproblems.com depuis le 15 avril 2026. La piste de preuve a été produite par GPT-5.4 Pro, promptée par Liam Price, puis formalisée et vérifiée dans le langage de preuve Lean. Le thread de discussion sur la même base a vu intervenir plusieurs mathématiciens, dont Terence Tao. La nouveauté n'est pas qu'un modèle de langage ait raisonné ; c'est qu'un humain l'a guidé sur une question précise, qu'une machine a vérifié l'argument étape par étape, et que la communauté a relu publiquement le tout.

Sommaire

L'histoire a commencé à circuler sur Reddit et X autour du 17 avril 2026 sous le titre racoleur "ChatGPT 5.4 a résolu un problème de maths vieux de 64 ans". La formule est confortable, mais elle gomme l'essentiel. Le travail réel est plus intéressant et plus rassurant : un mathématicien à temps partiel pose une question pointue à un modèle de langage de pointe ; le modèle propose une approche que personne n'avait formalisée ; un système de preuve formelle valide chaque étape ; la communauté relit publiquement. Voilà ce qui s'est vraiment passé, et pourquoi ça mérite une analyse posée plutôt qu'un titre choc.

Ce qui s'est passé exactement, sans embellir

Trois faits sont vérifiables sur la page officielle du problème, erdosproblems.com/1196, et dans la bibliothèque publique Lean de référence.

Fait 1. La page est marquée PROVED (LEAN), avec la mention explicite "This has been solved in the affirmative and the proof verified in Lean." C'est le statut éditorial de la base — pas une déclaration unilatérale d'un compte X.

Fait 2. La page attribue la résolution à "GPT-5.4 Pro (prompted by Price)". Liam Price est cité dans la section "Additional thanks to". Le terme prompted by n'est pas anodin : il dit qui a posé la question, qui a guidé l'exploration, qui a tenu le fil pendant l'aller-retour avec le modèle.

Fait 3. La preuve formelle est publiée sur github.com/google-deepmind/formal-conjectures, au format Lean. C'est ce fichier que la base utilise pour valider l'étiquette PROVED (LEAN). Le statut n'est pas déclaratif, il est exécutable — Lean rejoue la preuve étape par étape à chaque vérification, et ne laisse passer aucun raccourci.

Ce qui n'est pas vérifié et qu'il faut donc éviter de répéter : aucune validation explicite "officielle" et signée par Terence Tao n'apparaît sur la page du problème. Tao intervient dans le thread de discussion publique adossé au problème, ce qui est documenté. Conclure de là qu'il a "approuvé toute la preuve" relève de l'extrapolation — la nuance compte.

Le problème #1196 : 60 ans d'attente, en deux phrases

Le problème #1196 dans la base d'Erdős est une conjecture d'Erdős, Sárközy et Szemerédi sur les ensembles primitifs — un ensemble d'entiers où aucun élément ne divise un autre. Les exemples classiques : les nombres premiers, ou les entiers ayant exactement k facteurs premiers.

L'objet d'étude est la somme des 1/(a · log a) quand a parcourt l'ensemble. Erdős conjecturait dans les années 1960 qu'au-dessus d'un certain seuil de queue, cette somme reste bornée d'une manière précise. Lichtman avait déjà prouvé en 2023 une version asymptotique impliquant la constante d'Euler. La piste signée GPT-5.4 Pro et formalisée en Lean démontre une borne effective sur la queue, valable pour tout ensemble primitif A. La formulation exacte est sur la page officielle, on ne va pas la reproduire en LaTeX maison ici — clique sur la source si tu veux la voir.

Le point intéressant n'est pas la formule. C'est que ce résultat n'avait pas trouvé preneur depuis presque soixante ans, malgré des avancées partielles. Tomber dessus en avril 2026 par un dialogue entre un humain et un modèle de langage, c'est un signal — pas un déluge. Il y a 1 200 problèmes ouverts dans la base d'Erdős. Un seul vient de tomber.

Le rôle de chacun : Price, GPT-5.4 Pro, Lean, Tao

C'est ici que la lecture facile fait perdre la moitié de l'information. Décortique chaque acteur.

Liam Price — l'humain qui a tenu la session

Price est cité comme prompter. Concrètement, ça veut dire qu'il a posé une question précise au bon endroit du paysage mathématique, qu'il a relu chaque étape de la sortie du modèle, qu'il a pointé les erreurs ou demandé des compléments, et qu'il a porté l'aller-retour jusqu'à ce qu'une preuve formelle soit possible. Sans cette posture — qui est celle d'un mathématicien, pas d'un utilisateur ChatGPT lambda — la session aurait abouti à un beau texte qui aurait l'air d'une preuve. Avec cette posture, elle aboutit à un fichier .lean qui passe la vérification automatique.

GPT-5.4 Pro — le modèle qui a proposé une approche

Le modèle a passé plus d'une heure à raisonner, d'après la séquence racontée publiquement. Plus important que le temps : la nature de l'apport. Le modèle n'a pas récité une preuve qui existait déjà sur Internet — sinon Lichtman, Gorodetsky et la communauté l'auraient repérée. Il a articulé un argument neuf, qui a survécu à la formalisation. C'est cette nouveauté qui distingue cet épisode des cas où un LLM "résout" un exercice en le retrouvant dans son entraînement.

Reste l'humilité. Personne ne dit que GPT-5.4 Pro a "compris" le problème au sens humain. Ce qu'il a fait, c'est produire une suite de pas formels qui mène à une borne, et qu'un système de vérification a validés.

Lean — le filet de sécurité qui transforme un texte en preuve

Lean est un assistant de preuve formelle : un système de vérification automatique qui ne laisse passer aucun raccourci. Tu écris ta preuve en Lean, le système relit chaque étape, et si la preuve est correcte, il dit oui. Si elle est fausse, il dit non et désigne l'étape qui cloche. Pas de zone grise.

La bibliothèque publique google-deepmind/formal-conjectures héberge la version Lean de la preuve produite par la session Price + GPT-5.4 Pro. C'est ce qui ferme le débat sur "l'IA hallucine-t-elle ?" pour cette occurrence précise. Ici, le modèle peut très bien avoir produit du texte légèrement bancal — Lean ne laisse rien passer. Si le fichier passe la vérification, la preuve tient. Si elle ne tenait pas, le fichier ne serait pas dans la bibliothèque.

Terence Tao — la relecture publique de la communauté

Tao intervient dans le thread de discussion. Pas comme tampon "approuvé", mais comme un contributeur expert qui examine, commente et discute des raffinements possibles. C'est ce que fait n'importe quel mathématicien sérieux face à un nouveau résultat — surtout quand le pédigree de la production est inhabituel.

L'erreur courante sur les réseaux sociaux a été de transformer cette intervention en un "Tao a validé ChatGPT". Non. Tao a participé à une discussion publique, dans laquelle d'autres mathématiciens et le mainteneur de la base ont pesé l'argument. La validation PROVED (LEAN), elle, vient du système de vérification Lean — pas d'une signature d'expert.

Pourquoi la vérification Lean change tout

C'est l'aspect que les titres racoleurs effacent et que les mathématiciens trouvent décisif.

Une preuve mathématique racontée en français — ou en anglais, ou produite par un LLM — peut être convaincante et fausse. L'histoire des maths est pleine de "preuves" acceptées pendant des années avant qu'un trou apparaisse. La discipline a inventé Lean (et Coq, et Isabelle) précisément pour ce genre de cas : confier la vérification à un programme qui ne se laisse pas convaincre par l'élégance du discours.

Quand la base d'Erdős marque un problème PROVED (LEAN), elle ne dit pas "Bloom est convaincu" ou "la communauté est d'accord". Elle dit "le système de vérification Lean accepte ce fichier comme une preuve correcte". C'est un statut beaucoup plus fort qu'une publication en pré-print qui attend la peer review.

Pour les pistes produites par un modèle de langage, ce filtre est doublement précieux. Le LLM est un excellent générateur de prose plausible. La prose plausible n'est pas une preuve. Lean tranche. Si Lean valide, on a quelque chose. Si Lean refuse, on a juste un beau texte.

C'est exactement le type de discipline qu'on retrouve dans la pratique d'un audit IA chez Cypher — la sortie d'un agent IA n'est pas la fin du parcours, c'est le début. Il faut la passer par un filtre vérifiable (test unitaire, comparaison avec une source, validation humaine) avant de la considérer comme un livrable.

Ce que cette histoire dit de l'IA en recherche fondamentale

Quatre lectures honnêtes, à garder à distance des deux pôles habituels (catastrophisme et hype).

Lecture 1. L'IA est un partenaire utile pour explorer des pistes. Pas un remplaçant. Price n'a pas envoyé un mail à GPT-5.4 Pro et reçu une preuve. Il a tenu une session structurée, relu, corrigé, formalisé. Le mathématicien reste le chef d'orchestre.

Lecture 2. Les modèles d'aujourd'hui peuvent produire des sorties techniquement correctes que la littérature humaine n'avait pas. C'est une nouveauté que les sceptiques rejetaient encore en 2024. La page #1196 est un contre-exemple isolé mais documenté.

Lecture 3. La vérification formelle est le verrou indispensable. Sans Lean, l'épisode aurait été un post Twitter parmi d'autres. Avec Lean, c'est un statut éditorial sur une base de référence. La généralisation va dépendre de la disponibilité d'outils de formalisation de plus en plus accessibles.

Lecture 4. Comme dans la médecine ou la biologie, la collaboration humain + IA fait apparaître des résultats qui auraient pris plus de temps en mode purement humain. C'est un changement de cadence, pas un changement de nature du métier. Le mathématicien décide ce qu'il vaut la peine de prouver, formule la question, juge la valeur du résultat. Le modèle accélère l'exploration des chemins.

L'analogie qu'on entend chez nos clients qui automatisent des tâches d'analyse via des agents IA spécialisés est la même : ce n'est pas l'agent qui décide, c'est l'humain qui cadre l'agent et qui valide. La vraie productivité vient de cette boucle.

Limites et ce qu'il faut éviter de raconter

Trois limites pour ne pas surinterpréter l'épisode.

Une preuve, pas un déluge. Un seul problème est passé PROVED (LEAN) ce mois-ci. La base en compte 1 200 ouverts. Tirer de cet exemple "GPT-5.4 va résoudre tous les problèmes ouverts" n'a aucun fondement. Le bon cadrage : "des sessions humain + IA peuvent désormais produire des pistes vérifiables sur certains problèmes ouverts précis".

Un domaine spécifique. La théorie additive des nombres et les ensembles primitifs sont un terrain où la combinatoire et l'analyse se croisent. Les techniques qui ont fonctionné ici ne se transposent pas trivialement à la géométrie algébrique, à la topologie ou à l'analyse fonctionnelle. Chaque domaine a ses propres formes d'argument et ses propres pièges.

Le rôle réel de Tao. Il a participé à une discussion publique. Ce n'est pas le pape des maths qui appose un sceau "approuvé". L'idée qu'un grand mathématicien ait "validé ChatGPT" est une fiction journalistique qui ne reflète pas le fonctionnement réel de la communauté. La validation tient à Lean.

Et après ?

Plusieurs équipes travaillent à industrialiser ce type de session : prompter un modèle de pointe sur un problème ouvert, automatiser la formalisation Lean, lancer la vérification. À court terme, on verra probablement quelques succès isolés sur d'autres problèmes ouverts — pas une vague. À plus long terme, la combinaison "modèle frontier + assistant de preuve formelle" pourrait devenir un outil standard dans les départements de mathématiques, comme le calcul formel l'est devenu dans les années 1990. Voir aussi notre tour des outils IA gratuits qu'on garde sur le radar en 2026 pour la cartographie plus large.

Questions fréquentes

ChatGPT a-t-il vraiment résolu seul un problème vieux de 64 ans ?

Non, et le mot important est "seul". La page officielle indique solved by GPT-5.4 Pro (prompted by Price). Liam Price est l'humain qui a posé la question et tenu la session. La preuve a ensuite été formalisée et vérifiée dans le langage Lean. Quatre acteurs : Price, GPT-5.4 Pro, Lean, la communauté qui a discuté publiquement. Le titre "ChatGPT a résolu" gomme trois acteurs sur quatre. Concernant l'âge, la base parle d'une conjecture des années 1960 — soit "presque 60 ans" plutôt qu'un chiffre précis figé.

C'est quoi exactement une preuve formelle Lean ?

Lean est un assistant de preuve : un langage et un système de vérification automatique qui relit chaque étape d'un raisonnement mathématique. Tu écris ta preuve en Lean, tu lances la vérification, le programme dit "oui, l'argument est correct" ou "non, l'étape X n'est pas justifiée". Quand la base d'Erdős marque PROVED (LEAN), elle s'appuie sur un fichier .lean qui passe la vérification — pas sur une opinion humaine. C'est ce qui rend l'étiquette beaucoup plus fiable qu'une déclaration sur les réseaux sociaux.

Terence Tao a-t-il approuvé la preuve ?

Tao est intervenu dans le thread de discussion publique du problème sur erdosproblems.com. Il y a participé comme contributeur expert qui examine et commente, pas comme autorité signant un certificat. La validation PROVED (LEAN) vient du système de vérification Lean — pas d'une signature humaine. Confondre les deux a produit une vague de titres exagérés sur les réseaux sociaux. La participation de Tao reste précieuse parce qu'elle apporte une relecture experte, mais elle ne joue pas le rôle qu'on lui prête.

Cela veut-il dire que l'IA va remplacer les mathématiciens ?

Non. L'épisode #1196 montre exactement le contraire. Sans Liam Price pour formuler la bonne question, tenir la session et formaliser le résultat, GPT-5.4 Pro n'aurait rien produit d'exploitable. Sans la communauté pour discuter publiquement, le résultat n'aurait pas le statut qu'il a aujourd'hui. Le modèle accélère l'exploration des pistes ; le mathématicien décide ce qu'il vaut la peine d'explorer, juge la valeur, formalise. Ce qu'on observe est une nouvelle cadence de travail, pas un transfert de métier.

Cette méthode marche-t-elle pour d'autres problèmes ouverts ?

Probablement pour certains, pas pour tous. Le problème #1196 est dans un domaine — ensembles primitifs, théorie additive — où les techniques sont relativement compactes et formalisables. La géométrie algébrique avancée, la topologie de basse dimension ou la théorie analytique des nombres demandent des chaînes d'argument beaucoup plus longues qui résistent encore largement à la combinaison LLM + Lean. On verra dans les mois à venir si d'autres problèmes ouverts tombent sur la même mécanique. Pour l'instant, c'est un cas isolé documenté, pas un déluge.

Est-ce que ça vaut le coup de tester GPT-5.4 Pro pour mes propres calculs ?

Pour des calculs ou raisonnements professionnels courants, oui — comme n'importe quel modèle frontier, il aide à explorer rapidement. Pour des résultats mathématiques originaux, retiens trois conditions : pose la bonne question avec la rigueur d'un spécialiste, relis chaque étape de la sortie comme tu relirais un brouillon d'étudiant, et fais vérifier toute conclusion par un système indépendant (test, source, second avis). C'est exactement le cadrage qu'on applique dans nos diagnostics Cypher avant d'industrialiser un agent IA chez un client : la sortie de l'agent n'est jamais le livrable, c'est l'entrée du filtre humain et machine.

Conclusion

L'épisode du problème d'Erdős #1196 mérite mieux que les deux récits qui circulent. Ni "ChatGPT a remplacé les mathématiciens", ni "l'IA ne fait rien d'intéressant en recherche". Ce qui s'est vraiment passé : un humain a tenu une session structurée avec un modèle de pointe, le modèle a proposé une approche neuve, un système de vérification formelle l'a validée, la communauté l'a discutée publiquement. Le résultat tient parce que les quatre étages tiennent.

Pour les équipes qui automatisent une partie de leur travail d'analyse avec des agents IA, c'est exactement la mécanique à reproduire : cadrer la question, laisser l'agent explorer, vérifier la sortie par un filtre indépendant, relire en équipe. Réserver un call de 30 min si tu veux poser cette discipline sur un cas d'usage de ta boîte avant d'engager un budget.

Envie d'aller plus loin ?

On vous aide à passer à l'action.

15 minutes pour identifier le premier cas d'usage IA rentable dans votre entreprise.

Découvrez aussi nos cas clients (résultats chiffrés par secteur) ou qui est derrière Cypher IA.