Recherchez une offre d'emploi

Thèse Apprentissage par Renforcement Réutilisable et Général pour la Robotique Humanoide H/F - 33

Description du poste

Université de Bordeaux
Bordeaux - 33
CDD
Publié le 17 Mars 2026

Établissement : Université de Bordeaux
École doctorale : Mathématiques et Informatique
Laboratoire de recherche : LaBRI - Laboratoire Bordelais de Recherche en Informatique
Direction de la thèse : Olivier LY
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59

Les récents progrès de l'apprentissage par renforcement (RL) ont permis des avancées remarquables dans la conception de comportements globaux pour les robots humanoïdes. Grâce à la modulation des récompenses et aux environnements basés sur la physique, il est devenu possible de synthétiser des politiques de mouvement robustes et performantes capables de marcher, de se relever après une chute ou d'effectuer des tâches agiles comme donner un coup de pied dans un ballon. Néanmoins, ces politiques restent spécifiques à une tâche et fragiles, nécessitant une réingénierie importante lorsque de nouveaux objectifs émergent. Par exemple, une politique de contrôle entraînée pour la locomotion doit souvent être presque entièrement réappris pour s'adapter à des objectifs de niveau supérieur comme la navigation orientée vers une cible ou la manipulation coordonnée d'un ballon. Le manque de réutilisabilité des politiques qui en résulte constitue un goulot d'étranglement majeur pour l'autonomie des robots à grande échelle.

Les efforts visant à améliorer la généralisation comportementale ont exploré diverses approches. L'apprentissage par renforcement hiérarchique décompose le contrôle en couches de primitives réutilisables, mais impose des limites rigides qui dégradent les performances de la tâche. En revanche, les approches basées sur la diffusion ou les modèles de base, proposent des politiques de suivi générales de bout en bout capables d'imiter diverses compétences à partir de démonstrations. Ces méthodes sacrifient souvent les performances et l'adaptabilité spécifiques à une tâche en raison de leur rigidité computationnelle et architecturale. Combler le fossé entre des politiques expressives et généralistes et une adaptation efficace aux tâches robotiques spécifiques demeure un problème ouvert.

Rhoban is a robotics team with a particular focus on humanoid robots. The team develops its own platforms, like the kid-size humanoid robot Sigmaban which was tested extensively during RoboCup soccer competitions[1]. Other robots, including adult-size humanoids, are currently being developed. Rhoban activities range from modeling [4], designing and building robots to machine learning for decision [2] and control [3]. A starting collaboration with Google DeepMind's MuJoCo[5] team is being set up in that scope.