FAQ Dalia
✉️ Pour toute question technique relative à l'exploitation de Dalia, vous pouvez contacter l'assistance IDRIS à l'adresse assist@idris.fr en préfixant le sujet de votre mail de "[Dalia]". Par exemple :
À : assist@idris.fr
Sujet : [Dalia] Question usage conteneur Apptainer
Contenu : Blablabla
Segfault sur un job utilisant plus de 11 nœuds
Par défaut, les ressources allouées aux processus du système sont unlimited (visible avec la commande ulimit -s). Mais en réalité, la valeur unlimited correspond à une allocation de 2 Mo de mémoire sur la pile (stack) par thread, ce qui est trop peu. La solution est d'augmenter les ressources allouées de la manière suivante :
ulimit -s 8192
Source : https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html#stack-size.