FAQ Dalia
✉️ Pour toute question technique relative à l'exploitation de Dalia, vous pouvez contacter l'assistance IDRIS à l'adresse assist@idris.fr en préfixant le sujet de votre mail de "[Dalia]". Par exemple :
À : assist@idris.fr
Sujet : [Dalia] Question usage conteneur Apptainer
Contenu : Blablabla
Segfault sur un job utilisant plus de 11 nœuds
Par défaut, les ressources allouées aux processus du système sont unlimited (visible avec la commande ulimit -s). Mais en réalité, la valeur unlimited correspond à une allocation de 2 Mo de mémoire sur la pile (stack) par thread, ce qui est trop peu. La solution est d'augmenter les ressources allouées de la manière suivante :
ulimit -s 8192
Source : https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#stack-size.
Problèmes de quotas sur le HOME
Sur la machine, vous appartenez à plusieurs groupes Unix, l'un associé à votre login Dalia et les autres associés à vos projets (un par projet).
Par exemple, si vous appartenez à deux projets, la commande groups vous donnera une sortie similaire à :
mylogin project_group1 project_group2
On utilise ces groupes Unix pour imposer des quotas sur le HOME et d'autres quotas sur les espaces de travail associés aux projets.
Par défaut, un fichier créé dans le répertoire HOME appartiendra au groupe du propriétaire du login mylogin et un fichier créé dans /lustre/work/project1/mylogin appartiendra au groupe du projet project1, ainsi de suite.
Mais il arrive que des fichiers/répertoires contenus dans le répertoire /lustre/work/project1/mylogin finissent par appartenir au groupe du login mylogin. ces fichiers remplissent alors les quotas du HOME de mylogin même si ces fichiers n'y sont pas physiquement.
Dans ce cas, vous pouvez modifier le groupe Unix propriétaire du répertoire en question (ici dossier) pour lui attribuer le bon groupe projet (ici group_project1) :
chown <group_project1> -R <ossier>