Aller au contenu principal

Slurm

Les travaux sont gérés sur l'ensemble des nœuds par le logiciel Slurm.

  • Pour soumettre un script de soumission : sbatch script.slurm
  • Pour suivre ses travaux en attente ou en cours d'exécution : squeue --me
    Cette commande affiche l'information sous la forme suivante :
    JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
    235 part_name test abc R 00:02 1 noeud123
    • JOBID : l'identifiant du job
    • PARTITION : la partition utilisée
    • NAME : le nom du job
    • USER : le nom d'utilisateur du propriétaire du job
    • ST : l’état d'exécution du job (R=running, PD=pending, CG=completing, ...)
    • TIME : le temps écoulé depuis le début du run (ST = R)
    • NODES : le nombre de nœuds utilisés
    • NODELIST : la liste de des nœuds utilisés.
Note

Vous pouvez utiliser l'option --start pour que Slurm affiche une estimation de l'heure de démarrage de vos travaux (colonne "START_TIME"). Il est possible que Slurm ne soit pas encore en mesure d'avoir une estimation suffisamment fiable sur le démarrage de certains travaux, dans ce cas l'information apparaîtra comme non disponible ("N/A"). Comme la liste des travaux en attente est évolutive, il est important de garder à l'esprit que l'information donnée par Slurm n'est qu'une estimation qui est susceptible de changer en fonction de la charge de la machine.

  • Pour obtenir des informations complètes (ressources allouées et état d'exécution) sur un travail en attente ou en cours d'exécution : scontrol show job JOBID
  • Pour annuler une exécution : scancel JOBID

Remarques

  • Un tableau exhaustif des commandes Slurm est proposé sur la documentation officielle.

  • En cas d'incident matériel sur la machine, la configuration par défaut de Slurm fait que les travaux en cours sont automatiquement redémarrés. Si votre code ne supporte pas les points de reprise, le calcul recommencera alors automatiquement depuis le début. Si vous voulez éviter ce comportement, il vous faut utiliser l'option --no-requeue lors de la soumission, c'est-à-dire soumettre votre travail avec sbatch --no-requeue script.slurm ou ajouter la directive suivante dans votre script de soumission : #SBATCH --no-requeue

Votre avis compte !

Pour donner votre avis, signaler une erreur, ou suggérer une amélioration, c'est par ici :

rapide questionnaire anonyme

Ce questionnaire est temporaire et vous prendra moins d'une minute, alors profitez-en !