Recherchez une offre d'emploi

Thèse Compression Structuration Latente et Exploration Efficace du Raisonnement dans les Architectures Neuronales Récursives H/F - 33

Description du poste

Université de Bordeaux
Bordeaux - 33
CDD
Publié le 17 Mars 2026

Établissement : Université de Bordeaux
École doctorale : Mathématiques et Informatique
Laboratoire de recherche : LaBRI - Laboratoire Bordelais de Recherche en Informatique
Direction de la thèse : Denis BARTHOU ORCID 0009000085475395
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59

Les progrès récents de l'intelligence artificielle générative ont été rendus possibles par l'augmentation conjointe de la puissance de calcul et des volumes de données disponibles pour l'entraînement. Les Large Language Models (LLM) illustrent cette dynamique, mais ils reposent principalement sur une phase d'entraînement extrêmement coûteuse. On observe aujourd'hui un déplacement progressif de l'effort computationnel vers la phase d'inférence : certaines approches mobilisent davantage de calcul au moment de produire une réponse, en explorant dynamiquement plusieurs hypothèses ou solutions candidates, dont seule une partie est finalement retenue.

Ce paradigme soulève plusieurs défis scientifiques. Il s'agit notamment de réduire le coût de l'exploration rapide de l'espace des solutions, de concevoir des modèles capables de produire efficacement des raisonnements internes compressés, et d'assurer la stabilité et la fiabilité de ces dynamiques latentes. À ces questions d'efficacité s'ajoutent des enjeux plus fondamentaux liés à l'interprétabilité des processus de décision, à l'alignement de systèmes dont les étapes de raisonnement ne sont pas explicitement observables, ainsi qu'à leur capacité à généraliser au-delà de tâches fortement structurées.

Dans ce contexte, les Tiny Recursive Models (TRM) ont récemment montré qu'il est possible d'effectuer des tâches de raisonnement avec un nombre très réduit de paramètres. Ces modèles reposent sur un mécanisme de raffinage récursif : un état latent et une solution intermédiaire sont mis à jour de manière itérative jusqu'à converger vers une réponse correcte. Cette approche permet à des réseaux très compacts d'atteindre des performances comparables, voire supérieures, à celles de modèles beaucoup plus grands sur certains benchmarks de raisonnement comme Sudoku ou ARC-AGI. Les TRM s'inscrivent dans une lignée de travaux visant à concevoir des architectures efficaces et compactes, incluant notamment les réseaux récurrents optimisés pour les dispositifs contraints, les modèles hiérarchiques de raisonnement et les Deep Equilibrium Models.

Malgré ces résultats prometteurs, plusieurs limites subsistent. Le rôle exact de la récursivité dans les performances observées reste mal compris, et les processus algorithmiques effectivement mis en oeuvre par ces modèles demeurent largement opaques. Par ailleurs, leur capacité de généralisation à des tâches variées reste encore limitée. Enfin, l'entraînement et l'inférence nécessitent la propagation du gradient à travers de nombreuses itérations récursives, ce qui peut engendrer des coûts importants en mémoire et en temps de calcul.

Cette thèse vise à mieux comprendre et améliorer ces architectures selon trois axes principaux. Le premier consiste à analyser les dynamiques internes des TRM afin d'identifier les stratégies de raisonnement émergentes au cours des itérations. Le second porte sur le développement de méthodes d'entraînement et d'inférence plus efficaces, adaptées au caractère récursif de ces modèles, notamment à travers des optimisations de calcul et de mémoire. Enfin, le troisième axe vise à étudier les principes de conception permettant de dimensionner ces architectures de manière optimale selon les contraintes matérielles et les contextes d'utilisation, du calcul sur GPU aux environnements embarqués. Ces travaux devraient contribuer à une meilleure compréhension des mécanismes de raisonnement dans les modèles compacts et à l'amélioration de leur efficacité computationnelle.

N/A

Mieux comprendre les dynamiques internes des Tiny Recursive Models (TRM) afin d'identifier les mécanismes de raisonnement émergents dans ces architectures récursives.
Améliorer leur efficacité computationnelle et leurs principes de conception, afin de concevoir des modèles compacts capables de raisonner efficacement tout en restant optimisés pour l'entraînement et l'inférence.

- Analyse des dynamiques internes des TRM : étudier les états latents et les itérations récursives afin d'identifier les stratégies, heuristiques ou algorithmes de raisonnement qui émergent au cours du processus de raffinage.
- Étude expérimentale de la généralisation et de la stabilité : évaluer le comportement des modèles sur différentes tâches de raisonnement et analyser l'influence des hyperparamètres (largeur, profondeur, nombre d'itérations).
- Développement de méthodes d'entraînement et d'inférence plus efficaces : proposer des optimisations adaptées aux architectures récursives (gestion mémoire, stockage des états intermédiaires, parallélisme, fusion de kernels).
- Conception et dimensionnement des architectures : déterminer des principes permettant d'adapter les TRM aux différents contextes matériels tout en maximisant leur efficacité et leur robustesse.