VM

VM non disponibili

Come identicare il problema

Per verificare la disponibilità delle macchine (manager e/o worker):

aprire un terminale ed eseguire il seguente comando per collegarsi in ssh all’ambiente cloud di produzione

ssh -p 50007 -i ~/.ssh/prod_manager_key.pem "azureuser@20.234.211.98"

eseguire il seguente comando per visualizzare l’elenco delle macchine disponibili e il loro attuale stato

docker node ls

Il comando tornerà la seguente lista

Se tutte le macchine sono in STATUS=Ready e AVAILABILITY=Active, il cloud è “in salute”.

Come risolvere il problema

Se uno dei worker ha STATUS=Down/Unknown e/o AVAILABILITY=Pause/Drain e/o MANAGER STATUS=Unavailable:

docker swarm join-token worker

Il comando tornerà il seguente altro comando

docker swarm join --token SWMTKN-1-5otz0zvttk8z39jlycskiukhlg2ya94tpt2qg12ryrcv023pec-1lfubq0gtufppvifdeq0vqo79 10.2.0.4:2377

selezionare l’istanza worker che si vuole riattivare ed accedere alla sua Serial Console
lanciare il comando appena ottenuto
verificare che ora il worker sia attivo, ricontrollando lo stato dei nodi

Se uno dei manager ha STATUS=Down/Unknown e/o AVAILABILITY=Pause/Drain e/o MANAGER STATUS=Unavailable:

docker swarm join-token manager

Il comando tornerà il seguente altro comando

docker swarm join --token SWMTKN-1-5otz0zvttk8z39jlycskiukhlg2ya94tpt2qg12ryrcv023pec-a7wqrz8ld3s0gi2aa0lj2hhoh 10.2.0.4:2377

selezionare l’istanza manager che si vuole riattivare ed accedere alla sua Serial Console
lanciare il comando appena ottenuto
verificare che ora il manager sia attivo, ricontrollando lo stato dei nodi

Attività necessarie per una corretta ripresa delle operazioni

Da Portainer, selezionare tutti i servizi clouderp_worker_* (TRANNE clouderp_worker_gestore_code) ed eliminarli. Questo è necessario per il ribilanciamento dei servizi tra i due worker. Il Gestore Code infatti andrà a ricreare tutti i servizi appena cancellati.

Come verificare che sia tutto operativo

Accedere a Portainer: se il sito non risponde correttamente, è necessario un riavvio del servizio caddy_caddy.

Per riavviare il servizio caddy_caddy:

aprire un terminale ed eseguire il comando per collegarsi in ssh all’ambiente cloud di produzione
eseguire il seguente comando

docker service update caddy_caddy --force

Se i worker/manager non risultano raggiungibili

Se non si riesce nemmeno ad accedere alla Serial Console dei worker/manager da riattivare:

da Azure, selezionare il worker/manager da riattivare e arrestarlo (tramite tasto Stop con forza - l’operazione può metterci anche 10 minuti)
quando risulta bloccato, farlo ripartire (tramite tasto Start).