Monitoramento de servidores e a rede mesh

Como o CreateYourVPN vigia a saúde dos servidores: autoverificações, uma rede mesh de verificações mútuas entre servidores, e ocultação automática de servidores inacessíveis dos usuários.

Um servidor pode decepcionar você no pior momento possível: um serviço trava, o provedor reinicia a máquina — ou, pior ainda, o servidor é bloqueado no país de um usuário e para de ser alcançável mesmo estando tecnicamente no ar. Seus usuários nunca deveriam perceber nada disso. Esta aula cobre como o CreateYourVPN vigia seus servidores e o que acontece quando um deles está com problemas.

Duas camadas de verificação

O sistema olha para cada servidor de dois ângulos.

1. O servidor se verifica

A cada poucos minutos, cada servidor se reporta: o listener de tráfego na porta 443 está vivo, e o serviço da VPN está rodando? As métricas da aula 3 chegam junto com esse mesmo relatório. Se o relatório disser "não estou bem", o servidor recebe o status "Servidor indisponível". Se os relatórios param de chegar completamente, o status vira "Sem dados do servidor" — a máquina pode estar desligada ou ter perdido a rede.

2. Os servidores "batem na porta" uns dos outros

Autoverificações não conseguem pegar o caso mais traiçoeiro: um servidor acredita que está saudável, mas de fora ele não pode ser alcançado — por exemplo, seu IP foi bloqueado. É por isso que todos os seus servidores são unidos em uma rede mesh de verificações mútuas: cada servidor tenta regularmente alcançar cada vizinho — do mesmo jeito que o aplicativo de um usuário faria.

A partir daí, uma "votação" assume o controle:

Uma única tentativa falha não significa nada — a rede pode ter simplesmente oscilado. Só contam sequências sustentadas de falhas.
Um servidor só é marcado como "Inacessível a partir dos seus servidores" quando vários servidores independentes falham consistentemente em alcançá-lo — a opinião de um único servidor não é um veredito.
Também há proteção contra a "testemunha não confiável": se algum servidor de repente afirma que não consegue ver metade dos seus vizinhos, o problema provavelmente é dele mesmo — e seus votos são descartados.

Esse é exatamente o esquema que pega os bloqueios: se um servidor é bloqueado em um país onde vivem outros dos seus servidores, os vizinhos daquele país rapidamente param de alcançá-lo, um quórum se forma, e o sistema marca o servidor como inacessível. Enquanto isso, servidores em países sem o bloqueio continuam vendo-o normalmente — e a diferença de opiniões deixa o quadro óbvio.

O que acontece com um servidor problemático

Os status alimentam diretamente o balanceamento: servidores com os status "Servidor indisponível" e "Inacessível a partir dos seus servidores" são tirados de rotação — nenhuma nova conexão é enviada para eles, e nas assinaturas dos usuários o lugar deles é ocupado por servidores saudáveis das mesmas rotas.

Ao mesmo tempo, o sistema é cauteloso — ele é construído sobre o princípio de "não causar dano":

Uma rota nunca fica vazia. Se todo servidor de uma rota acabar "ruim", o sistema vai servir aos usuários a melhor opção disponível em vez de uma lista vazia — do contrário, os aplicativos concluiriam que os servidores sumiram e os apagariam.
Silêncio não é um veredito. O status "Sem dados do servidor" não remove um servidor de rotação por conta própria: sem dados atualizados, o sistema não faz movimentos bruscos.

Tudo se cura sozinho

Nenhum dos status "gruda" para sempre — o estado é sempre recalculado a partir de dados atualizados:

o servidor volta a enviar um relatório saudável → "Servidor indisponível" é retirado;
os vizinhos voltam a alcançá-lo → a sequência de falhas é zerada, e a marca "Inacessível a partir dos seus servidores" desaparece;
os relatórios voltam → "Sem dados do servidor" desaparece.

Conserte o servidor (ou espere ele ser desbloqueado) — e ele se recoloca em serviço sozinho. Sem "ligar de volta" manualmente.

Onde ver isso no painel

Abra o cartão de qualquer usuário → a lista de servidores dele: ao lado de cada servidor há um ponto de status, e quando algo está errado — uma legenda com o motivo: "Servidor indisponível", "Inacessível a partir dos seus servidores" (incluindo quantos dos seus servidores não conseguem vê-lo), ou "Sem dados do servidor". Sinais indiretos também aparecem nos cartões de servidor: um selo "desatualizado" nas métricas e "Sem dados — agente não responde".

As verificações mesh são extremamente econômicas: são pequenos toques de sondagem com um teto rígido de volume diário — elas não têm impacto no tráfego ou no desempenho dos seus servidores.

Principais pontos

Duas camadas de controle: um servidor verifica a si mesmo, e seus vizinhos de mesh o verificam de fora.
Bloqueios são pegos por uma "votação" de vários servidores — sem pânico por causa de um soluço isolado.
Servidores problemáticos saem de rotação; usuários migram silenciosamente para os saudáveis.
Tudo se autocura: no instante em que um servidor volta à vida, ele se reintegra automaticamente.

A seguir

A infraestrutura sabe se consertar sozinha, mas há uma coisa que vale a pena proteger separadamente — sua base de usuários.

Aula 8. Backups →

Salvando seus usuários no seu próprio armazenamento e aprendendo a restaurá-los.

Monitoramento de servidores e a rede mesh

Aula 8. Backups →

On this page