C’est un article de Google publié en 2016 qui a popularisé la SRE (Site Reliability Engineering : How Google Runs Production Systems). L’ingénierie de la fiabilité des sites est « ce que l’on obtient lorsque l’on traite les opérations comme s’il s’agissait d’un problème de logiciel ».
Il s’agit en fait d’un ensemble d’outils, de pratiques et de processus qui ont pour vocation de créer des systèmes à la fois efficaces, fiables et évolutifs, le tout, en parfaite adéquation avec les objectifs d’une entreprise. La SRE est d’ailleurs considérée en réalité comme une culture, ou un état d’esprit, car chacun doit ici contribuer à la fiabilité et à la qualité des systèmes.
La pratique SRE permet de définir, de juger et de maîtriser les risques sur la globalité de l’architecture
Full Stack. Elle fait pour cela appel à l’analyse d’incidents, la mesure,la simulation et l’automatisation dans le but d’accélérer les cycles d’innovation ainsi que le déploiement logiciel, en veillant au respect des conditions de fiabilité, de disponibilité et de performance des environnements de production.