Senior Site Reliability Engineer (SRE) (m/w/d)
Confidential
Posted: April 2, 2026
Interested in this position?
Create a free account to apply with AI-powered matching
Quick Summary
Design and maintain robust, secure, and scalable Kubernetes and cloud infrastructure, including EKS and AWS, with a focus on debugging performance, scheduling, and crash loops, and implementing GitOps and observability tools.
Required Skills
Job Description
Als Senior Site Reliability Engineer übernimmst du die Verantwortung für den stabilen, sicheren und skalierbaren Betrieb unserer Kubernetes- und Cloud-Infrastruktur – hands-on, eigenständig und mit echtem Ownership.
Deine Aufgaben:
• Betrieb und Optimierung von Kubernetes-Clustern (EKS) und AWS-Infrastruktur
• Debugging komplexer Probleme (Performance, Scheduling, OOM, CrashLoops)
• Aufbau und Betrieb von Self-Hosted Services (z. B. Istio, OpenSearch, RabbitMQ)
• Umsetzung von GitOps (ArgoCD/Flux) und Observability (Logging, Metrics, Tracing)
• Definition von SLIs/SLOs sowie Alerting-Strategien
• Entwicklung von Backup- und Disaster-Recovery-Konzepten (inkl. RTO/RPO)
• Analyse und Verbesserung von Systemarchitekturen (Skalierung, Sicherheit, SPOFs)