Recherchez une offre d'emploi

Thèse Apprentissage Profond pour la Médecine Personnalisée Clustering et Alignement de Données Single-Cell H/F - 33

Description du poste

Université de Bordeaux
Bordeaux - 33
CDD
Publié le 17 Mars 2026

Établissement : Université de Bordeaux
École doctorale : Mathématiques et Informatique
Laboratoire de recherche : LaBRI - Laboratoire Bordelais de Recherche en Informatique
Direction de la thèse : Patricia THEBAULT ORCID 0000000322764573
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59

Ce projet vise à développer et évaluer des méthodes d'apprentissage profond pour l'analyse de données d'expression génique à l'échelle de la cellule unique (scRNA-seq). Ces données permettent de mesurer l'activité des gènes dans chaque cellule et offrent ainsi la possibilité de caractériser finement les différents types cellulaires présents dans un tissu ou chez un patient pour mieux comprendre les mécanismes biologiques et identifier des signatures génétiques associées à certaines pathologies, comme le cancer.
Deux objectifs sont envisagés pour (1) explorer des méthodes de clustering non supervisé capables d'identifier automatiquement des groupes de cellules partageant des signatures génétiques communes et proposer une approche intégrée basée sur l'apprentissage profond permettant d'effectuer simultanément ces deux étapes dans un même modèle.
(2) proposer l'intégration de de multiples jeux de données de cellules uniques issus de différentes études biomédicales. L'abondance croissante de ces données ouvre de nouvelles perspectives mais pose également le défi de leur comparaison et de leur harmonisation.
L'ensemble de ces travaux vise à améliorer l'analyse des données de transcriptomique à cellule unique et à contribuer au développement d'outils d'intelligence artificielle pour la recherche biomédicale et la médecine personnalisée.

L'apprentissage profond (deep learning) est une avancée majeure de l'intelligence artificielle (IA) de ces dernières années. Cette approche de l'apprentissage automatique consiste à entraîner un réseau de neurones de grande taille à réaliser une tâche de prédiction à l'aide d'un ensemble de données d'apprentissage. L'apprentissage profond s'est rapidement imposé comme un standard dans plusieurs domaines en pulvérisant les records des précédentes méthodes de l'état de l'art, notamment en traitement d'images et du langage naturel. Un des enjeux majeurs de cette approche est désormais son application au domaine biomédicale.
Au sein de l'équipe BKB du laboratoire LABRI, nous nous intéressons à l'étude de différents phénotypes à partir de données d'expression de gènes, en particulier les données de cellule unique (scRNASeq). L'expression d'un gène correspond à la quantité d'ARN qui est « produit » par ce gène, que l'on peut interpréter comme son niveau d'activité. Il est ainsi possible de caractériser un patient par son profil d'expression génique. Grâce aux progrès technologiques, nous sommes désormais capables de mesurer l'expression génétique au niveau de la cellule et d'estimer le nombre de classes de cellules présentes. À partir de ces données d'expression à l'échelle cellulaire, nous pouvons entraîner des réseaux de neurones à reconnaître un type cellulaire et identifier des signatures génétiques cellulaires. Ces approches offrent la possibilité de mieux caractériser certaines pathologies (exemple : progression d'un cancer dans une cohorte) et d'adapter la prise en charge en fonction des caractéristiques du patient [1].

À partir de ces données d'expression à l'échelle cellulaire, l'objectif est de proposer de nouvelles méthodes en IA basées sur des architecture de type auto-encoder pour reconnaître un type cellulaire et identifier des signatures génétiques cellulaires. Ces approches offriront la possibilité de mieux caractériser certaines pathologies (exemple : progression d'un cancer dans une cohorte) et d'adapter la prise en charge en fonction des caractéristiques du patient [1].

:Un premier volet de ce stage vise à explorer les dernières avancées sur les méthodes non supervisées de clustering pour identifier des regroupements de cellules partageant des signatures génétiques communes. L'objectif sera de proposer une solution à base d'apprentissage profond en intégrant l'étape de réduction de dimension et de clustering avec le même modèle, par opposition aux méthodes classiques en deux étapes via une analyse en composantes principales (ACP) puis un k-means par exemple. La piste privilégiée sera d'utiliser un auto-encodeur (AE) pour projeter les données d'entrée dans un espace réduit par le biais d'un encodeur. L'entraînement d'un AE permettra de s'assurer que cet espace latent soit représentatif de la donnée en entrée pour le modèle via la tâche de reconstruction réalisée par le décodeur. Le clustering sera réalisé sur l'espace réduit et l'originalité consistera à combiner la tâche de reconstruction à celle du clustering [2]. Un premier stage a permis d'explorer l'utilisation des auto-encodeurs classiques dans ce cadre, et nous souhaiterions désormais aller plus loin, notamment en inspectant les auto-encodeurs variationnels (VAE) et d'autres variantes plus récentes permettant de renforcer la qualité et la structuration de l'espace latent. Il conviendra de comparer ces approches avec les méthodes classiques qui reposent sur la séparation de la réduction de dimension et du clustering en deux étapes successives.
Le deuxième volet de ce stage est plus exploratoire. Le domaine du biomédical est marqué par la multiplication des jeux de données de cellules uniques accessibles via différents portails. Un nouveau défi de recherche consiste alors à intégrer ces différents jeux de données pour pouvoir les comparer [4]. En entraînant un AE par jeu de données, nous aimerions examiner si les résultats du clustering sont comparables et, en conséquence, évaluer l'apport de stratégies d'alignement via des mécanismes d'apprentissage par transfert [3]. Considérons deux jeux de données A et B de phénotypes comparables, nous pourrions guider l'apprentissage de l'AE sur le jeu de données B à partir des connaissances acquises par l'AE, voire des résultats de clustering, sur le jeu de données A.