Soumission de travaux sur Dalia
Gestionnaire de travaux Slurmâ
Les travaux sont gérés sur Dalia par le logiciel Slurm, comme sur Jean Zay.
Les commandes habituelles permettent de contrĂŽler les jobs :
sbatch: Soumission d'un fichier batchsrun: Exécution d'une tùchesqueue: Vérification des jobs en queuescancel: Annulation d'un job
important
Depuis la frontale, il faut charger le module slurm pour pouvoir utiliser les commandes Slurm (si ce n'est pas déjà fait) :
module load slurm/slurm/24.11
Soumission via un conteneur Apptainerâ
Il est recommandé de travailler dans des conteneurs Apptainer sur Dalia.
Exemple de script de soumission :
#!/usr/bin/env bash
#SBATCH --job-name=test_dalia
#SBATCH --output=slurm_log/%x_%j.out
#SBATCH --error=slurm_log/%x_%j.out
## Reservation de la totalité des ressources d'un noeud : 144 CPUs et 4 GPUs
#SBATCH --nodes=1 # Nombre de noeuds
#SBATCH --gpus-per-node=4 # Max 4 GPU par noeud
#SBATCH --ntasks-per-node=4 # Nombre de tache par noeud
#SBATCH --cpus-per-task=36 # Nombre de CPU par tache : 4 * 36 = 144 CPUs
## Temps limite d'execution du travail (HH:MM:SS)
#SBATCH --time=0:40:00
cd $PROJECT_DIR
export APPTAINER_CACHEDIR=/lustre/work/<project_group>/<login>/<cache_directory>
srun apptainer exec --nv --pwd /my_project_dir --bind $PROJECT_DIR:/my_project_dir mon_container.sif <commande> # Use --nv to enable nvidia support
--nvpermet d'utiliser les GPU NVIDIA dans le conteneur ;--pwddéfinit le répertoire de travail dans le conteneur ;--bindpermet de faire le montage du répertoire$PROJECT_DIRvers/my_project_dirdans le conteneur.