OpsyLab/Serviços/Kubernetes

Kubernetes para empresas que não podem cair.

Implantação, operação e suporte sênior. Mais de 8 anos sustentando plataformas Kubernetes em produção — incluindo o Rock in Rio, onde tolerância a downtime é zero.

Avaliar meu ambiente gratuitamente Ver o case do Rock in Rio

Resposta em 30 minutos no horário comercial · Sem compromisso

opsylab@prod · cluster-rir-01

$kubectl get nodes -o wide

NAME STATUS ROLES AGE VERSION

cp-01.rir.prd Ready control-plane 3y22d v1.30.4

cp-02.rir.prd Ready control-plane 3y22d v1.30.4

w-01..w-22.prd Ready <none> 3y22d v1.30.4

$helm upgrade ingress nginx/ingress -n ingress-system

Release "ingress" has been upgraded. Happy Helming!

$kubectl top pods -A | head -5

checkout-api 1842m / 2000m 92%

HPA: scale 12 → 46 pods · p95 latency 310ms OK

99,98%

Uptime em produção

< 30 min

Resposta a P1 crítico

+8 anos

Experiência da equipe

100%

Clusters com hardening

01 · Dores que resolvemos

Três cenários, um mesmo time.

Listamos as conversas que mais aparecem no primeiro contato. Cada uma aponta para o serviço que costuma resolvê-la com previsibilidade — sem inflar escopo.

"Meu cluster cai no pico."

Eventos, lançamentos e campanhas em que o tráfego explode. A aplicação trava, autoscaling não acompanha e a chamada vai parar no CTO de madrugada.

Implantação resiliente

"Meu time não dá conta dos incidentes complexos."

N1 e N2 cobrem o operacional, mas troubleshooting profundo de control plane, networking e service mesh atrasa e gera ruído nas reuniões.

N3+ consultivo

"Não quero ter um time só para operar Kubernetes."

O foco é o produto, não a plataforma. Você prefere terceirizar a operação rotineira do cluster — deploys, rollbacks, capacidade — para um parceiro técnico.

Operação completa

02 · Três formas de trabalhar

Implantar, sustentar ou evoluir
— você escolhe a modalidade.

Cada projeto é dimensionado individualmente. Esforço varia conforme criticidade do ambiente, número de clusters, janela de suporte e modelo de operação. O preço sai no diagnóstico.

Modalidade · 01

Implantação de cluster Kubernetes Enterprise

Projeto com escopo fechado e prazo definido. Entrega ambientes prontos para produção, com hardening, observabilidade, GitOps e documentação.

3 ambientes (Prod / Hom / Dev)
RBAC com 3 perfis · NetworkPolicy deny-all
Istio Gateway · cert-manager · Vault
Prometheus + Grafana · dashboards prontos
Runbooks técnicos & treinamento

Modalidade · 02

Suporte e Operação Recorrente

Modelo mensal com SLA contratualizado. Da consultoria N3+ para apoiar seu time até a operação completa do cluster pela OpsyLab.

SLA P1 · 30min em horário comercial
Plantão on-call estendido / 24x7
Planos: Essential · Standard · Advanced
RCA pós-incidente & revisão técnica
Os dois modelos podem ser combinados

Modalidade · 03

Pacotes de Horas Premium

Banco de horas de engenharia sênior para demandas pontuais — migrações, otimizações, evoluções e segurança avançada.

Validade 12 meses
Saldo conversível em outros serviços
Migração de workloads para Kubernetes
FinOps de cluster · rightsizing & spot
Auditoria técnica & roadmap

03 · Implantação

Cluster Kubernetes Enterprise, pronto para produção.

Entrega chave-na-mão com hardening, observabilidade e GitOps. Cada ambiente passa por validação técnica antes do handover, com documentação versionada e treinamento do time interno.

O que está incluso na entrega

Cluster com hardening padrãoCIS Benchmark aplicado, etcd com criptografia at-rest, audit-log e admission controllers.
RBAC com 3 perfisAdmin, plataforma e desenvolvedor — separação clara entre quem opera e quem entrega aplicação.
NetworkPolicy deny-all baselineTráfego namespace-a-namespace bloqueado por padrão; abertura explícita via policy.
cert-manager + Istio GatewayEmissão automática de TLS, mTLS entre serviços e roteamento avançado.
Vault para secretsGestão centralizada, rotação automatizada e integração com a aplicação via CSI Driver.
Prometheus + Grafana + dashboardsMétricas de aplicação, cluster e custo. Alertas críticos pré-configurados.
GitOps (ArgoCD, Flux ou outra ferramenta de CI/CD a sua escolha)Pipeline reproduzível e auditável; deploys versionados e revogáveis em commit.
Runbooks técnicos & handoverDocumentação dos procedimentos operacionais e treinamento prático com o time interno.

Dimensionamento de referência

Cluster · padrão Enterprisev1.30+

Ambiente	Control Plane	Workers
Produção	3 nodes	3 nodes (mínimo)
Homologação	2 nodes	2 nodes
Desenvolvimento	2 nodes	2 nodes

Este é o dimensionamento de referência. Ambientes maiores, multi-região, multi-cluster ou com requisitos específicos de compliance são dimensionados sob medida no diagnóstico.

Provedores suportados

AWS · EKS Azure · AKS GCP · GKE On-premise

04 · Suporte & Operação

Do N3 sob demanda à operação completa do seu cluster.

Dois modelos de atuação que podem ser combinados conforme o time interno cresce, a operação amadurece ou a criticidade do ambiente muda.

Modelo A

Suporte N3+ consultivo

A OpsyLab atua como N3 sênior para complementar seu time interno. Diagnóstico avançado, troubleshooting, revisão de arquitetura, RCA pós-incidente e governança técnica mensal — sem assumir o operacional do dia-a-dia.

Modelo B

Operação completa do ambiente

A OpsyLab assume a operação rotineira do cluster: monitoramento ativo, deploys, rollbacks, manutenção de versões, gestão de capacidade e resposta a incidentes. Indicado para empresas que não querem manter time dedicado de plataforma.

Combinação é o normal. É comum começar com N3 consultivo e migrar para operação completa conforme a relação amadurece — ou inverter, com a OpsyLab segurando o ambiente enquanto o time interno é formado.

Planos de horas mensais

Essential

10h / mês

Ambientes estáveis

Para times que precisam de N3 sob demanda em incidentes pontuais e revisões técnicas mensais.

Standard

20h / mês

Operação corrente

Operação rotineira combinada com projetos de melhoria contínua — observabilidade, FinOps, evolução.

Advanced

40h / mês

Alta criticidade

Para operações onde tolerância a downtime é zero — ou quando a OpsyLab assume a operação por completo.

SLAs operacionais

Severidade	Definição	Resposta inicial	Atuação contínua
P1 · Crítico	Indisponibilidade total ou perda massiva de função	30 minutos	Até resolução
P2 · Alto	Degradação severa de performance ou função parcial	2 horas	Horário comercial
P3 · Médio	Função degradada com workaround disponível	1 dia útil	Horário comercial
P4 · Baixo	Solicitação técnica ou consulta	2 dias úteis	Backlog

Plantão on-call disponível como add-on. Horário estendido, full weekend e 24x7. Para P1 com plantão contratado, o SLA inicial é de 30 minutos independentemente do dia/hora.

05 · Pacotes de Horas Premium

Engenharia sênior, sob demanda.

Banco de horas pré-pago para projetos pontuais que precisam de profundidade técnica — sem amarrar contrato recorrente.

Casos de uso típicos

01Migração de workloads para Kubernetes. Lift-and-shift ou refactor para cluster gerenciado.
02Otimização de custos de cluster. Rightsizing, spot, savings plans e visibilidade de custo por aplicação.
03Design avançado de segurança. mTLS, OPA/Gatekeeper, KSPM, hardening de control plane.
04Service mesh completo. Implementação de Istio ou Linkerd com observabilidade integrada.
05Auditoria técnica + roadmap. Visão clara do estado atual e plano priorizado de evolução.

06 · Como trabalhamos

Sem improviso. Sem dependência. Sem caixa-preta.

Toda relação OpsyLab passa por quatro pilares de governança técnica — independentemente da modalidade contratada.

PILAR 01

Gerente de projeto dedicado

Ponto único de contato comercial e técnico, com cadência clara de acompanhamento.

PILAR 02

Reunião semanal de review

Status técnico, próximos passos, riscos. Tempo de fala objetivo, ata documentada.

PILAR 03

Rastreabilidade completa

Tickets, mudanças e incidentes em ferramenta de gestão. Histórico auditável.

PILAR 04

Equipe certificada

CKA (Certified Kubernetes Administrator) e certificações AWS. Conhecimento atualizado.

Contexto

Um dos maiores festivais do mundo, online.

Dezenas de milhões de acessos concentrados em poucas horas. Venda de ingressos, transmissão e plataforma de mapa do festival rodam sobre Kubernetes — e cada segundo de indisponibilidade é exposição pública de marca.

Desafio

Picos de 4× a 8× a baseline em janelas previsíveis.

Autoscaling padrão não acompanha. Aplicação precisa absorver tráfego sem degradação, time de plataforma precisa de visibilidade total e resposta a incidente precisa ser em minutos — não em horas.

Solução

Cluster Enterprise + operação 24/7 OpsyLab.

Implantação com hardening, HPA preditivo treinado em dados históricos, observabilidade ponta-a-ponta e plantão dedicado durante o evento. Runbooks ensaiados; time on-call em modo "drill" semanas antes do dia 1.

Resultado

Zero indisponibilidade nos shows. Métricas no painel, não no ticket.

Edições consecutivas sustentadas pelo time OpsyLab, com aprendizado iterativo entre eventos. RCA pós-evento gera melhorias de baseline que se incorporam ao próximo ciclo.

07 · Perguntas frequentes

Antes de chamar a OpsyLab.

As 12 perguntas que mais aparecem em primeira conversa. Se a sua não estiver aqui, mande no WhatsApp — respondemos direto.

Qual a diferença entre suporte N1, N2 e N3 em Kubernetes?

N1 atende chamados básicos e segue runbooks pré-escritos. N2 resolve incidentes recorrentes e faz manutenção de rotina. N3 entra em troubleshooting profundo de control plane, networking, service mesh e performance — é onde a OpsyLab atua como complemento ao seu time, ou onde assumimos integralmente o ambiente.

A OpsyLab opera o cluster ou apenas dá consultoria?

Atuamos nos dois modelos. Em suporte consultivo N3+, complementamos seu time interno em incidentes complexos, revisões de arquitetura e governança técnica. Em operação completa, assumimos a rotina do cluster — deploys, rollbacks, monitoramento, manutenção de versões e resposta a incidentes. A escolha depende do tamanho do seu time, da criticidade do ambiente e do nível de delegação desejado. Os modelos podem ser combinados.

Vocês atendem AWS EKS, Azure AKS e GCP GKE?

Sim, nas três principais provedoras, além de Kubernetes vanilla em on-premise. A equipe tem certificações AWS e CKA, e implementa o mesmo padrão de hardening, observabilidade e GitOps independentemente do provedor.

Quanto tempo leva uma implantação completa?

O cronograma padrão para um cluster Enterprise (3 ambientes: Prod, Hom, Dev) é dimensionado no diagnóstico. Implantações de menor porte ficam na faixa de 4 a 6 semanas; ambientes mais complexos com multi-região, compliance específico ou integrações pesadas se estendem além disso. O escopo e prazo são fechados antes do contrato.

Qual o SLA de atendimento a incidentes P1?

30 minutos de resposta inicial em horário comercial (segunda a sexta, 9h-18h, horário de Brasília). Com plantão on-call contratado como add-on, o mesmo SLA de 30 minutos se aplica fora do horário, incluindo finais de semana e 24x7.

É possível contratar suporte sem ter implantação feita por vocês?

Sim. Antes do início do suporte, fazemos uma auditoria técnica do ambiente atual: estado do cluster, gaps de hardening, dívida técnica, observabilidade. O relatório vira o plano de trabalho dos primeiros ciclos de suporte — sem surpresa para nenhum dos lados.

Como funciona o plantão on-call 24x7?

É um add-on contratado sobre o plano de horas mensais. Você define a cobertura desejada (horário estendido, full weekend, 24x7) e a OpsyLab disponibiliza engenheiros sêniores em escala rotativa, com pager dedicado e tempo de resposta de 30 minutos para P1.

Vocês atendem fora de São Paulo / Rio de Janeiro?

Sim, atendemos clientes em todo o Brasil de forma remota. A sede fica em São Paulo, com base operacional no Rio de Janeiro, mas a operação é 100% online — reuniões, plantão e handover acontecem por videoconferência e ferramentas de colaboração.

O que está fora do escopo do suporte recorrente?

Suporte recorrente não cobre desenvolvimento de aplicação, refactor de código de negócio, migração massiva de workloads ou design completo de nova arquitetura. Essas frentes existem como projeto fechado (Implantação) ou banco de horas (Pacotes Premium), separados do contrato de suporte.

Como é o handover ao final do contrato?

Toda relação termina com handover documentado: runbooks atualizados, repositórios GitOps versionados, lista de pendências técnicas e sessão de transferência com o time interno. Nosso compromisso é deixar o cliente operando com autonomia — não criar dependência.

Como é feito o dimensionamento e a proposta comercial?

Cada projeto é dimensionado individualmente. O esforço varia conforme número de clusters, criticidade do ambiente, janela de suporte (horário comercial vs 24x7), modelo de operação (consultivo vs completo) e requisitos específicos de compliance. A proposta comercial é elaborada após um diagnóstico técnico inicial, sem custo e sem compromisso, com NDA disponível mediante solicitação.

Pronto para começar?

Diagnóstico técnico, sem custo e sem compromisso.

Conta brevemente o seu cenário. Respondemos em até 1 dia útil com agenda para conversar — em vídeo ou pelo WhatsApp, como preferir. NDA disponível mediante solicitação.

Falar no WhatsApp Conhecer a OpsyLab