CreateYourVPN Academy
Curs: com funciona tot

Monitoratge de servidors i xarxa mesh

Com vigila CreateYourVPN la salut dels servidors: autoverificacions, una xarxa mesh de verificacions mútues entre servidors, i l'ocultació automàtica dels servidors inaccessibles als usuaris.

Un servidor et pot fallar en el pitjor moment possible: un servei es penja, el proveïdor reinicia la màquina — o, pitjor encara, el servidor queda bloquejat al país d'un usuari i deixa de ser accessible tot i que tècnicament funciona. Els teus usuaris mai n'haurien de notar res. Aquesta lliçó tracta com vigila CreateYourVPN els teus servidors i què passa quan un d'ells té problemes.

Dues capes de verificació

El sistema mira cada servidor des de dos angles.

1. El servidor es verifica a si mateix

Cada pocs minuts, cada servidor informa: està viu l'escoltador de trànsit al port 443, s'executa el servei de VPN? Les mètriques de la lliçó 3 arriben amb el mateix informe. Si l'informe diu «no estic bé», el servidor rep l'estat «Servidor no disponible». Si els informes deixen d'arribar del tot, l'estat passa a ser «Sense dades del servidor» — la màquina podria estar apagada o haver perdut la xarxa.

2. Els servidors «truquen a la porta» els uns dels altres

Les autoverificacions no poden detectar el cas més enganyós: un servidor es creu sa, però des de fora no s'hi pot arribar — per exemple, la seva IP ha estat bloquejada. Per això tots els teus servidors estan units en una xarxa mesh de verificacions mútues: cada servidor intenta regularment arribar a cada veí — de la mateixa manera que ho faria l'aplicació d'un usuari.

A partir d'aquí, entra en joc una «votació»:

  • Un sol intent fallit no vol dir res — la xarxa podria haver-hi tingut només una petita interrupció. Només compten les ratxes sostingudes de fallades.
  • Un servidor es marca «No accessible des dels vostres servidors» només quan diversos servidors independents hi fallen de manera consistent — l'opinió d'un sol servidor no és un veredicte.
  • També hi ha protecció contra el «testimoni no fiable»: si algun servidor de sobte afirma que no pot veure la meitat dels seus veïns, el problema és molt probablement seu — i els seus vots es descarten.

Aquest és exactament l'esquema que detecta els bloquejos: si un servidor queda bloquejat en un país on hi ha altres servidors teus, els veïns d'aquell país deixaran ràpidament d'arribar-hi, s'acumula un quòrum, i el sistema marca el servidor com a inaccessible. Mentrestant, els servidors de països sense el bloqueig el seguiran veient — i la diferència d'opinions fa que el quadre sigui evident.

Què li passa a un servidor problemàtic

Els estats alimenten directament l'equilibri de càrrega: els servidors amb els estats «Servidor no disponible» i «No accessible des dels vostres servidors» es retiren de la rotació — no s'hi envien connexions noves, i a les subscripcions dels usuaris el seu lloc l'ocupen servidors sans de les mateixes rutes.

Alhora, el sistema és prudent — està construït sobre el principi «no fer mal»:

  • Una ruta mai queda buida. Si tots els servidors d'una ruta resulten ser «dolents», el sistema oferirà als usuaris la millor opció disponible en lloc d'una llista buida — altrament, les aplicacions decidirien que els servidors han desaparegut i els esborrarien.
  • El silenci no és un veredicte. L'estat «Sense dades del servidor» no treu tot sol un servidor de la rotació: sense dades fresques, el sistema no fa moviments precipitats.

Tot es cura sol

Cap dels estats «s'enganxa» per sempre — l'estat es torna a derivar a partir de dades fresques:

  • el servidor torna a enviar un informe sa → «Servidor no disponible» es retira;
  • els veïns tornen a poder-hi arribar → la ratxa de fallades es reinicia, i la marca «No accessible des dels vostres servidors» desapareix;
  • els informes es reprenen → «Sense dades del servidor» desapareix.

Arregles el servidor (o esperes que es desbloquegi) — i es torna a posar en servei tot sol. Cap «reactivació» manual.

On es veu això al tauler

Obre la fitxa de qualsevol usuari → la seva llista de servidors: al costat de cada servidor hi ha un punt d'estat, i quan alguna cosa va malament — un text amb el motiu: «Servidor no disponible», «No accessible des dels vostres servidors» (incloent quants dels teus servidors no hi arriben) o «Sense dades del servidor». També apareixen senyals indirectes a les targetes dels servidors: una etiqueta «desactualitzat» a les mètriques i «Sense dades — l'agent no respon».

Les verificacions mesh són extremadament frugals: són petits tocs de sondeig amb un límit diari estricte de volum — no tenen cap impacte en el trànsit o el rendiment dels teus servidors.

Idees clau

  • Dues capes de control: un servidor es verifica a si mateix, i els seus veïns de la mesh el verifiquen des de fora.
  • Els bloquejos es detecten mitjançant una «votació» de diversos servidors — sense pànic per una fallada aïllada.
  • Els servidors problemàtics surten de la rotació; els usuaris passen silenciosament als sans.
  • Tot es cura sol: en el moment que un servidor torna a la vida, s'hi reincorpora automàticament.

A continuació

La infraestructura sap com reparar-se a si mateixa, però hi ha una cosa que val la pena protegir per separat — la teva base d'usuaris.

On this page