ARCHIVED
This job listing has been archived and is no longer accepting applications.
MisuJob - AI Job Search Platform MisuJob

Post doctorante ou Post doctorant en apprentissage par renforcement basé sur un modèle -CDD de 24 mois

Confidential

Palaiseau, Île-de-France, France permanent

Posted: February 4, 2026

Interested in this position?

Create a free account to apply with AI-powered matching

Quick Summary

Post doctorante ou post doctorant en apprentissage par renforcement basé sur un modèle de CDD de 24 mois

Job Description

Qui sommes-nous ?

Télécom Paris, école de l’IMT (Institut Mines-Télécom) et membre fondateur de l’Institut Polytechnique de Paris, est une grande école du top 5 des écoles d’ingénieurs généralistes françaises.

La Raison d’Être de Télécom Paris est de former, imaginer et entreprendre pour concevoir des modèles, des technologies et des solutions numériques au service d’une société et d’une économie respectueuses de l’humain et de son environnement.

Nous recherchons notre futur(e) post-doctorant(e) en apprentissage par renforcement basé sur un modèle pour rejoindre le département

Informatique et Réseaux (INFRES) à Telecom Paris.

L’apprentissage par renforcement (AR) s’est imposé comme un paradigme pertinent pour entraîner des agents à réaliser des tâches complexes. L’apprentissage par renforcement basé sur un modèle (ARbM), en particulier, promet une meilleure efficacité en termes d’échantillons et des capacités de lanification sophistiquées en permettant à un agent d’apprendre un modèle prédictif de son environnement. Cependant, l’application directe des méthodes actuelles d’ARbM à des domaines critiques pour la sécurité, tels que la robotique autonome, les transports ou le contrôle industriel, est entravée par des défis non résolus.

Le défi scientifique principal : Les limites des modèles du monde actuels. Les approches standards de l’ARbM apprennent généralement un modèle du monde monolithique et de type « boîte noire », utilisant souvent un grand réseau de neurones comme approximateur de fonction. Bien que ces modèles puissent être très efficaces pour la prédiction au sein de leur distribution d’entraînement, ils souffrent de deux limitations majeures pour leur déploiement dans des systèmes sociotechniques :

• Fragilité et défaillances imprévisibles : Les modèles appris sont sujets à des défaillances imprévisibles lorsque l’agent rencontre des états ou des dynamiques jamais vus (c’est-à-dire un décalage de distribution). Ces défaillances sont difficiles à anticiper et peuvent conduire à des comportements dangereux, car les prédictions du modèle ne sont plus fiables.

• Manque de vérifiabilité : Les modèles appris sont opaques et ne sont assortis d’aucune garantie formelle. Il n’est pas possible de prouver que le modèle respectera de manière cohérente les contraintes fondamentales du monde réel ou sera aligné avec des valeurs attendues, telles que les lois physiques, les règles de sécurité ou les invariants logiques. Ce manque de correction vérifiable constitue un obstacle majeur à la construction de systèmes autonomes fiables et bien calibrés.

Axe de recherche : Modèles du monde vérifiables. La recherche se concentrera sur le développement d’une nouvelle classe de modèles du monde structurés et vérifiables qui intègrent la flexibilité de l’apprentissage profond (deep learning) à la rigueur des méthodes formelles et du raisonnement compositionnel. Les axes de recherche principaux de ce poste sont :

• Modèles structurés et neuro-symboliques : La recherche portera sur des architectures de modèles qui ne sont pas apprises à partir de zéro. Au lieu de cela, elles seront conçées pour intégrer des connaissances symboliques explicites. Ceci pourrait inclure des lois physiques connues, des règles logiques ou des contraintes de sécurité, qui sont traitées comme des composantes fixes et vérifiables du modèle. Le processus d’apprentissage se concentre alors sur la modélisation des aspects plus complexes et inconnus de l’environnement autour de ces vérités établies.

• Raisonnement compositionnel pour la sécurité : Nous explorerons comment un modèle du monde complexe peut être construit en composant des sous-modèles plus petits et plus spécialisés. Une question de recherche clé est de savoir comment vérifier formellement les propriétés du modèle composite en se basant sur les propriétés connues de ses composants individuels. Ceci offre une voie modulaire et scalable pour certifier que le modèle interne du monde de l’agent est, et reste, cohérent avec ses spécifications de sécurité.

• Adaptation de modèle : Un agent véritablement intelligent doit être capable d’adapter sa compréhension du monde à partir de l’expérience. Cette recherche développera un cadre pour l’adaptation sûre des modèles. Cela implique de créer des algorithmes d’ARbM où l’agent peut proposer des mises à jour de la structure de son propre modèle du monde, mais ces mises à jour ne sont acceptées qu’après qu’une étape de vérification formelle confirme que le nouveau modèle respecte toujours ses propriétés de sécurité fondamentales.

• Apprentissage multi-tâches : La décomposition des tâches permet aux agents d’apprendre des compétences transversales qui peuvent être utiles dans différents contextes. Les représentations partagées, les paradigmes d’AR multi-tâches et multi-objectifs améliorent la généralisation. La recherche dans ce domaine explorera comment capturer la décomposition des tâches dans les modèles du monde pour permettre des spécifications multi-tâches avec des garanties vérifiables.

Le candidat ou la candidate retenu(e) dirigera la résolution de ces problèmes ouverts à travers le développement et l’implémentation d’algorithmes d’AR. Il ou elle aura l’opportunité d’avoir un impact significatif dans le domaine de l’intelligence artificielle (IA) fiable et bien calibrée grâce à des collaborations internationales (par ex., UT Austin, MIT).

Vos principales missions seront:

• Assurer des missions de recherche dans le domaine de l’apprentissage par renforcement basé sur un modèle (ARbM).

• Assurer des missions d’encadrement et de tutorat

• Participer à la notoriété de l’Ecole, de l’Institut Mines-Télécom et de l’Institut Polytechnique de Paris

Why Apply Through MisuJob?

AI-Powered Job Matching: MisuJob uses advanced artificial intelligence to analyze your skills, experience, and career goals. Our matching algorithm compares your profile against thousands of job requirements to find positions where you have the highest chance of success. This saves you hours of manual job searching and ensures you only see relevant opportunities.

One-Click Applications: Once you create your profile, applying to jobs is effortless. Your resume and cover letter are automatically tailored to highlight the most relevant experience for each position. You can apply to multiple jobs in minutes, not hours.

Career Intelligence: Beyond job matching, MisuJob provides valuable career insights. See how your skills compare to market demands, identify skill gaps to address, and understand salary benchmarks for your experience level. Make data-driven decisions about your career path.

Frequently Asked Questions

How do I apply for this position?

Click the "Register to Apply" button above to create a free MisuJob account. Once registered, you can apply with one click and track your application status in your dashboard.

Is MisuJob free for job seekers?

Yes, MisuJob is completely free for job seekers. Create your profile, get matched with jobs, and apply without any cost. We help you find your dream job without any hidden fees.

How does AI matching work?

Our AI analyzes your resume, skills, and experience to understand your professional profile. It then compares this against job requirements using natural language processing to calculate a match percentage. Higher matches mean better fit for the role.

Can I apply to jobs in other countries?

Absolutely. MisuJob features jobs from companies worldwide, including remote positions. Filter by location or look for remote opportunities to find jobs that match your preferences.

Ready to Apply?

Join thousands of job seekers using MisuJob's AI to find and apply to their dream jobs automatically.

Register to Apply