ARCHIVED
This job listing has been archived and is no longer accepting applications.
MisuJob - AI Job Search Platform MisuJob

STAGE - IA - Évaluation et alignement d’agents LLM F/H

Thales

Vélizy-Villacoublay Hybrid permanent

Posted: January 16, 2026

Interested in this position?

Create a free account to apply with AI-powered matching

Job Description

Lieu : Vélizy-Villacoublay, France Construisons ensemble un avenir de confiance Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 81 000 collaborateurs dans 68 pays. ​ Nos engagements, vos avantages Notre savoir-faire technologique Notre attention portée à l’équilibre des collaborateurs Un environnement inclusif et bienveillant Un engagement sociétal et environnemental reconnu (Thales Solidarity, indice CAC 40 ESG…) Votre quotidien Rejoignez-nous sur le campus Vélizy qui héberge une grande diversité d’activités Thales, aéro, défense, civile,... A l'ouest de Paris, ce site offre un environnement de travail équipé des dernières innovations technologiques et propose des services permettant de concilier vie professionnelle et personnelle. Au sein du département Systèmes de Protection Défense (PRS), notre équipe développe un système agentique basé sur des LLM capable de convertir automatiquement des protocoles militaires structurés (ex. NVG vers ADatP-3, etc.). Ce système repose sur : un agent convertisseur (LangGraph + LLM + outils MCP), une infrastructure d’observabilité (Langfuse). Le stage vise à concevoir un protocole d’évaluation réaliste pour un agent LLM outillé, puis à exploiter les trajectoires collectées pour améliorer l’agent convertisseur via des techniques d’alignement modernes (SFT, DPO, GRPO). Le sujet se déroulera en 2 étapes : Une phase d’évaluation afin de déterminer la performance de l’agent convertisseur à l’aide d’un nouvel agent opérateur et une seconde phase d’amélioration de l’agent convertisseur à l’aide des trajectoires générées durant la phase d’évaluation (Self-Imitation Learning). Tes missions consisteront à : Développer un agent simulé : implémenter un agent LangGraph jouant le rôle d’un opérateur humain et piloter des conversations simulées selon des scénarios définis. Collecter et traiter les données : utiliser Langfuse pour enregistrer les interactions et consolider les trajectoires au format JSONL. Analyser le raisonnement : identifier informations manquantes et hypothèses implicites, reconstituer les actions et analyser les stratégies efficaces. Définir les métriques et rewards : mesurer le succès end-to-end, le nombre de tours/actions et types d’échecs, et créer des fonctions de reward pour GRPO. Améliorer l’agent convertisseur : créer des datasets pour SFT, DPO et GRPO, évaluer les performances et analyser les gains. Votre profil En dernière année d'école ingénieur ou diplôme équivalent ( BAC+5 ), avec une spécialisation en IA, vous recherchez un stage de 6 mois ? Tu maîtrises Python et as déjà travaillé avec des LLM APIs (vLLM on-prem ou équivalent) ainsi que la gestion d’agents ( MCP ) ? Tu possèdes de solides connaissances des frameworks LangGraph et/ou LangChain , et idéalement des outils de tracing et d’observabilité comme Langfuse ? Des connaissances en reinforcement learning ( TorchRL, TRL ) seraient un plus. Tu es curieux.se et as envie d’explorer, comprendre et tester de nouvelles approches ? Tu disposes d'un bon esprit d'analyse te permettant de structurer un problèmen d'analyser des résultats et d'en tirer des conclusions. Tu savais avancer de manière autonome mais aussi travailler en équipe, partager tes idées et écouter les autres ? Le mot de l'équipe Si tu veux apprendre, innover et contribuer à des projets qui ont du sens, on a hâte de te rencontrer . Postule et viens construire l’IA de demain avec nous ! Tous nos stages sont conventionnés et soumis à une gratification dont le montant est déterminé selon votre niveau d’études. Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !

Why Apply Through MisuJob?

AI-Powered Job Matching: MisuJob uses advanced artificial intelligence to analyze your skills, experience, and career goals. Our matching algorithm compares your profile against thousands of job requirements to find positions where you have the highest chance of success. This saves you hours of manual job searching and ensures you only see relevant opportunities.

One-Click Applications: Once you create your profile, applying to jobs is effortless. Your resume and cover letter are automatically tailored to highlight the most relevant experience for each position. You can apply to multiple jobs in minutes, not hours.

Career Intelligence: Beyond job matching, MisuJob provides valuable career insights. See how your skills compare to market demands, identify skill gaps to address, and understand salary benchmarks for your experience level. Make data-driven decisions about your career path.

Frequently Asked Questions

How do I apply for this position?

Click the "Register to Apply" button above to create a free MisuJob account. Once registered, you can apply with one click and track your application status in your dashboard.

Is MisuJob free for job seekers?

Yes, MisuJob is completely free for job seekers. Create your profile, get matched with jobs, and apply without any cost. We help you find your dream job without any hidden fees.

How does AI matching work?

Our AI analyzes your resume, skills, and experience to understand your professional profile. It then compares this against job requirements using natural language processing to calculate a match percentage. Higher matches mean better fit for the role.

Can I apply to jobs in other countries?

Absolutely. MisuJob features jobs from companies worldwide, including remote positions. Filter by location or look for remote opportunities to find jobs that match your preferences.

Ready to Apply?

Join thousands of job seekers using MisuJob's AI to find and apply to their dream jobs automatically.

Register to Apply