Équateur

Senior Service Reliability Engineer

Poste à Pourvoir : Senior Service Reliability Engineer chez Thoughtworks

Présentation de l’Offre

Entreprise : Thoughtworks
Localisation : Quito, Pichincha
Date de Publication : 11 juin 2025

Thoughtworks est une société de conseil en technologie qui s’engage à intégrer stratégie, design et ingénierie pour propulser l’innovation numérique. Avec plus de 30 ans d’expérience, l’entreprise se distingue par son approche collaborative qui favorise l’apprentissage et la créativité au sein de ses équipes.

Description du Poste

En tant que Senior Service Reliability Engineer (SRE), vous jouerez un rôle essentiel dans l’optimisation de l’excellence technique et de l’efficacité opérationnelle. Ce poste est essentiel à la transformation des opérations traditionnelles vers des approches plus agiles et centrées sur le client.

Vous serez chargé de promouvoir les principes de l’Ingénierie de Fiabilité des Systèmes en intégrant des solutions d’automatisation, des systèmes de surveillance et des réponses aux incidents. Vous travaillerez à cultiver une culture collaborative axée sur l’amélioration continue.

Responsabilités

Les principales responsabilités incluent :

  • Améliorer la fiabilité des systèmes en concevant des mécanismes pour la tolérance aux pannes et en réduisant les temps de réponse et de détection.
  • Intégrer des outils d’observabilité dans les pipelines CI/CD.
  • Gérer les incidents en production, notamment en communiquant avec les clients et en rédigeant des analyses des causes profondes.
  • Superviser les performances des systèmes de production afin d’assurer le respect des objectifs de SLA et SLO.
  • Collaborer avec les équipes de développement pour améliorer la fiabilité des systèmes et mes implémentations.
  • Mettre en œuvre des pratiques d’ingénierie du chaos pour tester la fiabilité des systèmes.

Qualifications Requises

Pour ce poste, les candidats doivent posséder :

Compétences Techniques :

  • Expérience pratique dans des langages de programmation comme Python, Go ou Bash.
  • Compréhension approfondie d’au moins un service cloud public (AWS, Azure, GCP).
  • Familiarité avec des outils d’observabilité tels que Grafana, Datadog et d’autres.
  • Compétences en architecture de conteneurs et outils d’orchestration comme Kubernetes.

Compétences Professionnelles :

  • Excellentes compétences en communication en anglais.
  • Capacité à travailler sous pression et à maintenir son calme durant les incidents.
  • Attitude proactive et esprit de collaboration.

Culture et Développement Professionnel

Thoughtworks valorise le développement de carrière individuel et offre une variété de programmes pour soutenir vos aspirations professionnelles. La culture cultivée au sein de l’entreprise favorise l’entraide et l’épanouissement des employés.

Conclusion

Rejoindre Thoughtworks, c’est intégrer une communauté de professionnels passionnés, curieux et dédiés à l’atteinte d’une innovation durable. Si vous êtes à la recherche d’un environnement de travail qui valorise à la fois l’autonomie et la collaboration, ce poste est fait pour vous.

Pour plus d’informations ou pour postuler, suivez ce lien : Postulez dès maintenant!


📅 Date de publication de l’offre : Wed, 11 Jun 2025 22:22:26 GMT

🏢 Entreprise : Thoughtworks

📍 Lieu : Quito, Pichincha

💼 Intitulé du poste : Senior Service Reliability Engineer

💶 Rémunération proposée :

📝 Description du poste : As a Service Reliability Engineer (SRE) you will take a multifaceted approach to ensure technical excellence and operational efficiency within the infrastructure domain. Specializing in reliability, resilience and system performance, you take a lead role in championing the principles of Site Reliability Engineering. By strategically integrating automation, monitoring and incident response, you facilitate the evolution from traditional operations to a more customer-focused and agile approach. Emphasizing shared responsibility and a commitment to continuous improvement, you cultivate a collaborative culture, enabling organizations to meet and exceed their reliability and business objectives.Job responsibilities You will improve site reliability by building mechanisms/architectures that enable fault tolerance and faster median time to respond and median time to detect You will drive the integration of observability automation into the CI/CD pipeline You will handle production incidents, manage incident communication with clients and draft root cause analysis documents You will monitor performance of production systems and improve their scaling to ensure business goals are met within expected SLA and SLO metrics You will work closely with application development teams as advisors on improving system reliability and assisting in implementation for reliability improvements You will improve system observability across multiple facets such as logging and metrics, reducing false alarms to eliminate unnecessary toil and improving process efficiency You will implement chaos engineering practices as necessary to test system reliability, setting up processes for such testing to be done regularly You have a clear understanding of client goals and business needs and setting direction for site reliability in line with the same, e.g.: Achieving application availability with minimum/no disruption (99.999%) if necessary for business Job qualifications Technical Skills You have hands-on experience in programming and scripting languages such as Python, Go or Bash You have a good understanding of at least one Public Cloud, e.g.: AWS, Azure or GCP You have had exposure to observability tools such as Grafana, Datadog, NewRelic, ELK Stack, Dynatrace or equivalent and you are proficient in using data from these tools to dissect and identify root causes of system and infrastructure issues You are familiar with DevOps and GitOps practices You have a good knowledge of container-based architecture and orchestration tools such as Kubernetes, AWS EKS, Docker Swarm, Nomad, etc. You understand technical architecture and modern design patterns, including microservices, serverless functions, NoSQL and RESTful APIs, with experience in fixing bugs, analyzing logs, building metrics and operational dashboards You are familiar with creating infrastructure resources for improving reliability of system that follows Cloud’s Well Architected Framework principles: Reliability, security, cost optimization, performance efficiency and operational Professional Skills You have strong communication and articulation skills, and are proficient in English You have good people skills with an emphasis on negotiation and close collaboration with multiple cross-functional teams from the client side and/or Thoughtworks You solve challenging problems and difficult to debug issues with a never give up attitude You have the ability to work under pressure and with composure during production incidents You can confidently recommend improvements backed by strong technical arguments to client stakeholders or application development teams You are able to understand requirements provided by the client on both technical and business aspects and break them down for successful implementation You have a strong drive and ownership mentality, with a willingness to sign up for and deliver work when called upon, without being too concerned about role boundaries You’re willing to be part of a rotation- and need-based 24×7 available team Other things to know Learning & Development There is no one-size-fits-all career path at Thoughtworks: however you want to develop your career is entirely up to you. But we also balance autonomy with the strength of our cultivation culture. This means your career is supported by interactive tools, numerous development programs and teammates who want to help you grow. We see value in helping each other be our best and that extends to empowering our employees in their career journeys.About Thoughtworks Thoughtworks is a global technology consultancy that integrates strategy, design and engineering to drive digital innovation. For 30+ years, our clients have trusted our autonomous teams to build solutions that look past the obvious. Here, computer science grads come together with seasoned technologists, self-taught developers, midlife career changers and more to learn from and challenge each other. Career journeys flourish with the strength of our cultivation culture, which has won numerous awards around the world.Join Thoughtworks and thrive. Together, our extra curiosity, innovation, passion and dedication overcomes ordinary.#LI-Remote

➡️ Candidater en ligne


🔎 Offre d’emploi vérifiée et enrichie selon la ligne éditoriale de l’Association Artia13 : éthique, inclusion, transparence et vigilance contre les annonces trompeuses.

🌍 Retrouvez d’autres offres sur artia13.world

Artia13

Depuis 1998, je poursuis une introspection constante qui m’a conduit à analyser les mécanismes de l’information, de la manipulation et du pouvoir symbolique. Mon engagement est clair : défendre la vérité, outiller les citoyens, et sécuriser les espaces numériques. Spécialiste en analyse des médias, en enquêtes sensibles et en cybersécurité, je mets mes compétences au service de projets éducatifs et sociaux, via l’association Artia13. On me décrit comme quelqu’un de méthodique, engagé, intuitif et lucide. Je crois profondément qu’une société informée est une société plus libre.

Artia13 has 5409 posts and counting. See all posts by Artia13