Bueno, ha llegado el día en el que publico un resumen (muy básico y que seguramente iré actualizando) de lo que entiendo es un SRE y sus funciones básicas. Allá vamos.
¿Qué es un SRE?
Hay muchas definiciones de lo que es un SRE, pero me quedo con ésta de Microsoft:
Site Reliability Engineering is an engineering discipline devoted to helping an organization achieve the appropriate level of reliability in their systems, services, and products.
Y que complemento con esta frase sacada del libro de SRE de Google:
In general, an SRE team is responsible for the availability, latency, performance, efficiency, change management, monitoring, emergency response, and capacity planning of their service(s).