Situação (antes da nossa atuação)
A Acerto experimentava um rápido crescimento no mercado brasileiro de renegociação de dívidas, um setor que requer operações estáveis e confiáveis para garantir a satisfação dos clientes e a eficácia nas negociações. No entanto, esse crescimento trouxe à tona diversos desafios, particularmente na manutenção da estabilidade e confiabilidade das suas aplicações. Embora as aplicações não fosse consideradas instáveis, percebia-se a necessidade de se antecipar para amadurecer as práticas de engenharia para evitar que falhas prejudicassem o desempenho e a reputação da empresa.
A infraestrutura tecnológica da Acerto necessitava de uma revisão para identificar e corrigir pontos fracos que pudessem comprometer a operação. O conjunto de indicadores precisava ser amadurecido e os processos calibrados para trazerem respostas ágeis e eficazes a eventuais incidentes.
Implicações
As dificuldades enfrentadas pela Acerto se refletiam em vários aspectos críticos:
- Insegurança quanto estabilidade das aplicações a medida que o ecossistema crescia.
- Falhas na identificação e resolução rápida de incidentes que poderiam se agravar.
- Necessidade de melhorar o conjunto de métricas e acordos de nível de serviço para melhorar a gestão e a comunicação com stakeholders internos e externos.
- Preocupação com a confiança de clientes e parceiros caso ocorressem problemas de indisponibilidade.
O que fizemos
Para resolver os problemas da Acerto, a EximiaCo atuou para implantar a capability de Engenharia de Confiabilidade de Sites (SRE). Iniciamos com um diagnóstico da operação, identificando gaps e elaborando um plano de recomendações. Estruturamos os KPIs estratégicos e revisamos a instrumentação e os indicadores técnicos.
Definimos SLIs, SLOs e estabelecemos SLAs com stakeholders internos. Implementamos um processo robusto de SRE para sistematizar a gestão de confiabilidade. Oferecemos mentoria e colaboração prática à equipe técnica, promovendo uma cultura de SRE através de ciclos de revisão e feedback contínuos.
Estabelecemos um processo eficaz de resposta a incidentes, otimizamos operações e implementamos uma estratégia de phase out para que na conclusão do trabalho de consultoria o conhecimento e as práticas permanecessem na organização.
Entregáveis
- Diagnóstico da operação atual e plano de recomendações.
- KPIs estratégicos definidos e implementados.
- Sistema de monitoramento e indicadores técnicos revisados e aprimorados.
- SLIs, SLOs e SLAs estabelecidos e comunicados.
- Processo de SRE definido e implementado.
- Programa de mentoria e desenvolvimento contínuo para a equipe técnica.
- Processo de resposta a incidentes eficiente e otimizado.
Feedbacks
O trabalho ainda está em sua fase inicial e no seu primeiro momento precisou de ajustes de rotas devido a problemas pessoais do consultor e entendimento do estágio atual do cliente. É um projeto que precisa de acompanhamento.