Espaces disques
Pour chaque projet auquel un utilisateur est rattaché, quatre espaces disques distincts sont accessibles (lecture/écriture) à l'utilisateur : HOME, WORK, SCRATCH/JOBSCRATCH, et STORE.
Un espace supplémentaire, le DSDIR, est accessible en lecture à tous les utilisateurs et contient un ensemble de bases de données et de modèles pour la communauté Intelligence Artificielle.
Chaque espace a des caractéristiques spécifiques adaptées à son
utilisation, qui sont décrites dans la présente page. Les chemins d'accès à ces
espaces sont stockés dans des variables d'environnement du shell correspondantes :
$HOME, $WORK, $SCRATCH, $JOBSCRATCH, $STORE et $DSDIR.
Vous pouvez connaître l'occupation des différents espaces disques
avec les commandes IDRIS idr_quota_user et idr_quota_projet ou la commande
Unix du (disk usage).
- Le retour des commandes
idr_quota_useretidr_quota_projectest immédiat mais n'est pas une information en temps réel : les données ne sont actualisées qu'une fois par jour pendant la nuit. - La commande
duretourne une information en temps réel mais son exécution peut prendre beaucoup de temps selon la taille du répertoire concerné. - La gestion des bases de données / datasets sur Jean Zay nécessite de respecter une procédure spécifique.
Les espaces disques de Jean Zay
Le tableau ci-dessous récapitule les caractéristiques principales des espaces disques. Il est suivi des descriptions détaillées de chacun d'eux et d'une série de remarques et caractéristiques additionnelles importantes.
Tableau récapitulatif des espaces disques
| Espace | Capacité par défaut | Spécificités | Usages |
|---|---|---|---|
| HOME | 3 Go et 150 kinodes par utilisateur |
|
|
| WORK | 5 To (*) et 500 kinodes par projet |
|
|
| SCRATCH | Quotas de sécurité très larges ; 4,6 Po partagés par tous les utilisateurs |
|
|
| JOBSCRATCH | Identique à SCRATCH |
| Identiques à SCRATCH |
| STORE | 50 To (*) et 100 kinodes (*) par projet |
|
|
| DSDIR | 3,3 Po au total pour tous les utilisateurs |
|
|
(*) les quotas par projet peuvent être augmentés sur demande du chef de projet ou de son suppléant via l'interface Extranet ou sur demande auprès du support utilisateurs.
Description détaillée des espaces disques
HOME
Il s'agit du répertoire d'accueil lors d'une connexion interactive. Cet espace, propre à chaque utilisateur, est unique même dans le cas d'un login multi-projets et est régulièrement sauvegardé. Il est destiné aux fichiers de petite taille très souvent utilisés, comme les fichiers d'environnement du shell, les utilitaires, éventuellement les sources et les bibliothèques quand leur taille est raisonnable.
Cet espace est volontairement limité par des quotas par utilisateur, à la fois en termes de volumétrie (Go) et en nombre total de fichiers (inodes). Il est accessible en interactif ou dans un travail
batch via la variable $HOME :
cd $HOME# ou simplement :cd
WORK
Il s'agit d'un espace de travail et de stockage, utilisable en interactif comme en batch et non sauvegardé. On y stocke généralement les fichiers de taille importante qui servent lors des exécutions en batch : les fichiers sources volumineux et les bibliothèques, les fichiers de données, les exécutables, les fichiers de résultats, les scripts de soumission, etc.
Le WORK est un espace disque limité par des quotas par projet, à la fois en termes de volumétrie (Go) et en nombre total de fichiers (inodes). Il offre une bande passante d'environ 300 Go/s en écriture et en lecture. Celle-ci peut être ponctuellement saturée en cas d'utilisation exceptionnellement intensive. On y accède par la commande :
cd $WORK
- Les travaux batch peuvent s'exécuter dans le WORK ; cependant, plusieurs de vos travaux pouvant s'exécuter en même temps, il vous faut gérer l'unicité de vos répertoires d'exécution et/ou de vos noms de fichiers.
- De plus, il est soumis à des quotas (par projet) qui peuvent stopper brutalement votre exécution s'ils sont atteints. Ainsi, dans le WORK, il faut tenir compte non seulement de votre propre activité, mais aussi de celle de vos collègues de projet. Pour ces raisons, on pourra alors être amené à lui préférer le SCRATCH ou le JOBSCRATCH (voir ci-après) pour l'exécution de ses travaux batch.
SCRATCH
Il s'agit d'un espace de travail et de stockage utilisable en interactif comme en batch. Il est non sauvegardé, et la durée de vie des fichiers non-utilisés (non lus et non modifiés) y est limitée à 30 jours. On y stocke généralement les fichiers de taille importante qui servent lors des exécutions en batch : les fichiers de données, les fichiers de résultats ou de reprise de calcul (restarts).
Il est limité par des quotas de sécurité très larges de l'ordre d'1/10ième de l'espace disque total et des quotas inode par projet de l'ordre de 150 millions de fichiers et répertoires. Le SCRATCH est un espace disque dont la bande passante est supérieure à 1 To/s en écriture et en lecture. Il est accessible via :
cd $SCRATCH
- Une fois le post-traitement effectué pour réduire le volume de données, il est conseillé de faire une copie des fichiers significatifs dans l'espace WORK (ou STORE pour un archivage à long terme) afin de ne pas les perdre après 30 jours d'inactivité. Il est également recommandé de conserver une archive des jeux de données d'entrée.
- Le SCRATCH peut être vu comme un WORK semi-temporaire, mais avec les performances d'entrées/sortie maximales offertes à l'IDRIS, au prix d'une durée de vie des fichiers de 30 jours.
- Les caractéristiques semi-temporaires du SCRATCH permettent d'y stocker de gros volumes de données qui pourront être partagées lors de l’enchaînement de deux ou plusieurs jobs sur une durée limitée à quelques semaines : cet espace n'est pas "purgé" après chaque job (contrairement au JOBSCRATCH ci-après).
JOBSCRATCH
Ce répertoire possède les mêmes caractéristiques que le SCRATCH, mais avec une
durée de vie des fichiers limitée à celle d'un unique travail batch : il est
créé automatiquement au début de celui-ci et est détruit automatiquement à la fin
de son exécution. Au sein du travail batch considéré, le répertoire est accessible
via la variable d'environnement $JOBSCRATCH. Le même répertoire est aussi
accessible depuis la frontale Jean Zay pendant toute la durée d'exécution du
travail batch considéré, comme un sous-dossier du répertoire
/lustre/fsn1/jobscratch. Le nom du sous-dossier est la concaténation de votre login (variable d'environnement $LOGNAME) et du numéro JOBID associé au travail considéré (voir la sortie de la commande squeue) :
MYJOBID=insérer_votre_jobid_icicd /lustre/fsn1/jobscratch/${LOGNAME}_${MYJOBID}
On peut voir le JOBSCRATCH comme l'ancien TMPDIR. Notez que si la
variable $TMPDIR intervient dans les codes utilisés, il est possible de
simplement définir export TMPDIR=$JOBSCRATCH avant l’exécution, pour ne
pas avoir à intervenir dans les codes concernés.
STORE
C'est l'espace d'archivage de l'IDRIS, destiné au stockage à long
terme de données. On y stocke généralement les fichiers de taille très
importante, fruits du tar d'une arborescence de fichiers résultats de
calcul, après post-traitement.
La taille maximum est de 10 Tio par fichier et la taille minimum conseillée de 250 Mio (ratio taille disque / nombre d'inodes).
C'est un espace qui n'a pas pour vocation d'être accédé ou modifié quotidiennement, mais qui permet de préserver dans le temps de très gros volumes de données avec une consultation épisodique. Il est soumis à des quotas par projet avec un faible nombre d'inodes, mais un très grand espace. on y accède par la commande :
cd $STORE
Depuis le 22 juillet 2024, le STORE est uniquement accessible depuis les frontales et les partitions prepost, archive, compil et visu. Les travaux s'exécutant sur les nœuds de calcul n'auront plus directement accès à cet espace mais vous pouvez utiliser des travaux chaînés pour automatiser la gestion des données depuis/vers le STORE (voir nos exemples de travaux chaînés utilisant le STORE).
- Les fichiers n'y ont pas une durée de vie limitée.
- Stockage de très gros fichiers (tels que des archives .tar) mais en nombre limité.
- Comme il s'agit d'un espace d'archive, il n'est pas conçu pour des accès fréquents. Les fichiers migrés sur bande magnétique auront des temps d'accès accrus.
DSDIR
Cette espace disque contient des bases de données publiques volumineuses (en taille ou en nombre de fichiers) et des collections de modèles largement utilisées, nécessaires à l'utilisation d'outils de l'Intelligence Artificielle.
Ces bases de données sont visibles par l'ensemble des utilisateurs de Jean Zay.
Les bases de données actuellement disponibles sur Jean Zay sont listées sur une page dédiée. Si vous souhaitez exploiter des bases de données qui ne s'y trouvent pas déjà, l'IDRIS les téléchargera et les installera dans cet espace disque à votre demande si leurs licences nous le permet.
Si votre base de données est personnelle ou sous licence trop restrictive, il vous faudra prendre en charge vous-même sa gestion sur les espaces disques de votre projet, comme décrit dans la page "Gestion de bases de données".
Remarques et caractéristiques additionnelles
Sauvegardes
Suite à la migration vers les nouveaux espaces de stockage Lustre, l'espace disque WORK n'est plus sauvegardé. Nous vous recommandons de conserver une copie de vos données importantes sous forme d'archives stockées sur votre STORE.
Quotas
Les espaces disques HOME, WORK, SCRATCH et STORE sont soumis à des quotas d'espace disque et de nombre de fichiers (inodes). Les quotas sont détaillés sur la page Gestion des quotas.
Espaces disques et projets
Dans le cas d'un login multi-projet, un espace disque de chaque type (WORK, SCRATCH, STORE) existe pour chaque projet. Ainsi, un utilisateur appartenant à plusieurs projets disposera d'un espace WORK, SCRATCH et STORE par projet.
Un utilisateur multi-projet peut accéder à l'ensemble des espaces de tous ses projets via diverses variables d'environnement listées par la commande IDRIS idrenv.
Les variables WORK, SCRATCH et STORE référencent uniquement les espaces disque liés à votre projet actif qui a été sélectionné par défaut lors de la connexion ou manuellement via les commandes dédiées.
De plus, chaque espace disque WORK, SCRATCH et STORE est divisé en deux parties :
- une partie propre à chaque utilisateur, accessible via les variables
d'environnement
$WORK,$SCRATCHet$STORE; - une partie commune au projet permettant le partage de données, accessible via les variables
d'environnement
$ALL_CCFRWORK,$ALL_CCFRSCRATCHet$ALL_CCFRSTORE.
Nomenclature des variables d'environnement
L'IDRIS s'attache à respecter la nomenclature commune à celles des autres centres
de calcul nationaux (CINES, TGCC). Ainsi, pour chaque espace disque présenté ci-dessus,
une variable d'environnement alternative est disponible, en ajoutant le préfixe
CCFR à la variable d'origine : $CCFRHOME, $CCFRWORK, $CCFRSCRATCH et
$CCFRSTORE (voir la sortie de la commande IDRIS idrenv.