🎉 T-wiki 1.3.0 is released

BACK-ENDTroubleshootingVM non disponibili

VM

VM non disponibili

Come identicare il problema

Per verificare la disponibilitĂ  delle macchine (manager e/o worker):

  • aprire un terminale ed eseguire il seguente comando per collegarsi in ssh all’ambiente cloud di produzione
ssh -p 50007 -i ~/.ssh/prod_manager_key.pem "azureuser@20.234.211.98"
  • eseguire il seguente comando per visualizzare l’elenco delle macchine disponibili e il loro attuale stato
docker node ls

Il comando tornerĂ  la seguente lista

docker_node_ls_result

Se tutte le macchine sono in STATUS=Ready e AVAILABILITY=Active, il cloud è “in salute”.

Come risolvere il problema

Se uno dei worker ha STATUS=Down/Unknown e/o AVAILABILITY=Pause/Drain e/o MANAGER STATUS=Unavailable:

  • eseguire il seguente comando
docker swarm join-token worker

Il comando tornerĂ  il seguente altro comando

docker swarm join --token SWMTKN-1-5otz0zvttk8z39jlycskiukhlg2ya94tpt2qg12ryrcv023pec-1lfubq0gtufppvifdeq0vqo79 10.2.0.4:2377
  • accedere quindi al portale di Azure
azure_worker_path
  • selezionare l’istanza worker che si vuole riattivare ed accedere alla sua Serial Console
  • lanciare il comando appena ottenuto
  • verificare che ora il worker sia attivo, ricontrollando lo stato dei nodi

Se uno dei manager ha STATUS=Down/Unknown e/o AVAILABILITY=Pause/Drain e/o MANAGER STATUS=Unavailable:

  • eseguire il seguente comando
docker swarm join-token manager

Il comando tornerĂ  il seguente altro comando

docker swarm join --token SWMTKN-1-5otz0zvttk8z39jlycskiukhlg2ya94tpt2qg12ryrcv023pec-a7wqrz8ld3s0gi2aa0lj2hhoh 10.2.0.4:2377
  • accedere quindi al portale di Azure
azure_manager_path
  • selezionare l’istanza manager che si vuole riattivare ed accedere alla sua Serial Console
  • lanciare il comando appena ottenuto
  • verificare che ora il manager sia attivo, ricontrollando lo stato dei nodi

AttivitĂ  necessarie per una corretta ripresa delle operazioni

  • Da Portainer, selezionare tutti i servizi clouderp_worker_* (TRANNE clouderp_worker_gestore_code) ed eliminarli. Questo è necessario per il ribilanciamento dei servizi tra i due worker. Il Gestore Code infatti andrĂ  a ricreare tutti i servizi appena cancellati.

Come verificare che sia tutto operativo

  • Accedere a Portainer: se il sito non risponde correttamente, è necessario un riavvio del servizio caddy_caddy.

Per riavviare il servizio caddy_caddy:

  • aprire un terminale ed eseguire il comando per collegarsi in ssh all’ambiente cloud di produzione
  • eseguire il seguente comando
docker service update caddy_caddy --force

Se i worker/manager non risultano raggiungibili

Se non si riesce nemmeno ad accedere alla Serial Console dei worker/manager da riattivare:

  • da Azure, selezionare il worker/manager da riattivare e arrestarlo (tramite tasto Stop con forza - l’operazione può metterci anche 10 minuti)
  • quando risulta bloccato, farlo ripartire (tramite tasto Start).