Aller au contenu principal

Soumission de travaux sur Dalia

Gestionnaire de travaux Slurm​

Les travaux sont gérés sur Dalia par le logiciel Slurm, comme sur Jean Zay.

Les commandes habituelles permettent de contrĂŽler les jobs :

  • sbatch : Soumission d'un fichier batch
  • srun : ExĂ©cution d'une tĂąche
  • squeue : VĂ©rification des jobs en queue
  • scancel : Annulation d'un job
important

Depuis la frontale, il faut charger le module slurm pour pouvoir utiliser les commandes Slurm (si ce n'est pas déjà fait) :

module load slurm/slurm/24.11

Soumission via un conteneur Apptainer​

Il est recommandé de travailler dans des conteneurs Apptainer sur Dalia.

Exemple de script de soumission :

#!/usr/bin/env bash
#SBATCH --job-name=test_dalia
#SBATCH --output=slurm_log/%x_%j.out
#SBATCH --error=slurm_log/%x_%j.out
## Reservation de la totalité des ressources d'un noeud : 144 CPUs et 4 GPUs
#SBATCH --nodes=1 # Nombre de noeuds
#SBATCH --gpus-per-node=4 # Max 4 GPU par noeud
#SBATCH --ntasks-per-node=4 # Nombre de tache par noeud
#SBATCH --cpus-per-task=36 # Nombre de CPU par tache : 4 * 36 = 144 CPUs
## Temps limite d'execution du travail (HH:MM:SS)
#SBATCH --time=0:40:00

cd $PROJECT_DIR
export APPTAINER_CACHEDIR=/lustre/work/<project_group>/<login>/<cache_directory>
srun apptainer exec --nv --pwd /my_project_dir --bind $PROJECT_DIR:/my_project_dir mon_container.sif <commande> # Use --nv to enable nvidia support
  • --nv permet d'utiliser les GPU NVIDIA dans le conteneur ;
  • --pwd dĂ©finit le rĂ©pertoire de travail dans le conteneur ;
  • --bind permet de faire le montage du rĂ©pertoire $PROJECT_DIR vers /my_project_dir dans le conteneur.