Jean Zay : commande de contrôle des travaux

Les travaux sont gérés sur l'ensemble des nœuds par le logiciel Slurm .

  • Pour soumettre un script de soumission :

     $ sbatch script.slurm 
  • Pour suivre ses jobs en attente ou en cours d'exécution :

     $ squeue -u $USER 

    Cette commande affiche l'information sous la forme suivante :

    JOBID  PARTITION  NAME  USER  ST   TIME  NODES  NODELIST(REASON)   
      235  part_name  test   abc   R  00:02      1  r6i3n1 


    JOBID : l'identifiant du job
    PARTITION : la partition utilisée
    NAME : le nom du job
    USER : le nom d'utilisateur du propriétaire du job
    ST : l'état d'exécution du job ( R=running, PD=pending, CG=completing )
    TIME : le temps Elapsed
    NODES : le nombre de nœuds utilisés
    NODELIST : la liste de des nœuds utilisés.

  • Pour obtenir des informations complètes sur un job (ressources allouées et état d'exécution) :

     $ scontrol show job $JOBID 
  • Pour annuler une exécution :

     $ scancel $JOBID 

Remarques

  • Un tableau exhaustif des commandes Slurm est proposé ici.
  • En cas d'incident matériel sur la machine, la configuration par défaut de SLURM fait que les jobs en cours sont automatiquement redémarrés depuis le début. Si vous voulez éviter ce comportement, il vous faut utiliser l'option --no-requeue lors de la soumission, c'est-à-dire soumettre votre job en faisant

     $ sbatch --no-requeue script.slurm 

    ou ajouter la ligne

     $SBATCH --no-requeue 

    dans votre script de soumission.