Aller au contenu principal

Espaces disques

Pour chaque projet auquel un utilisateur est rattaché, quatre espaces disques distincts sont accessibles (lecture/écriture) à l'utilisateur : HOME, WORK, SCRATCH/JOBSCRATCH, et STORE.

Un espace supplémentaire, le DSDIR, est accessible en lecture à tous les utilisateurs et contient un ensemble de bases de données et de modèles pour la communauté Intelligence Artificielle.

Chaque espace a des caractéristiques spécifiques adaptées à son utilisation, qui sont décrites dans la présente page. Les chemins d'accès à ces espaces sont stockés dans des variables d'environnement du shell correspondantes : $HOME, $WORK, $SCRATCH, $JOBSCRATCH, $STORE et $DSDIR.

Vous pouvez connaître l'occupation des différents espaces disques avec les commandes IDRIS idr_quota_user et idr_quota_projet ou la commande Unix du (disk usage).

Remarques
  • Le retour des commandes idr_quota_user et idr_quota_project est immédiat mais n'est pas une information en temps réel : les données ne sont actualisées qu'une fois par jour pendant la nuit.
  • La commande du retourne une information en temps réel mais son exécution peut prendre beaucoup de temps selon la taille du répertoire concerné.
  • La gestion des bases de données / datasets sur Jean Zay nécessite de respecter une procédure spécifique.

jean-zay-annonce Les espaces disques de Jean Zay

Le tableau ci-dessous récapitule les caractéristiques principales des espaces disques. Il est suivi des descriptions détaillées de chacun d'eux et d'une série de remarques et caractéristiques additionnelles importantes.

Tableau récapitulatif des espaces disques

EspaceCapacité par défautSpécificitésUsages
HOME3 Go et 150 kinodes par utilisateur
  • Espace sauvegardé
  • Répertoire d'accueil à la connexion
  • Stockage de fichiers de configuration et de petits fichiers
WORK5 To (*) et 500 kinodes par projet
  • Espace non sauvegardé
  • Stockage sur disques rotatifs (350 Go/s en lecture et 300 Go/s en écriture)
  • Stockage des sources et des données d'entrée/sortie
  • Exécution en batch ou interactif
SCRATCHQuotas de sécurité très larges ; 4,6 Po partagés par tous les utilisateurs
  • Espace non sauvegardé
  • Durée de vie des fichiers inutilisés (= non lus, non modifiés) de 30 jours
  • Stockage SSD (1,5 To/s en lecture et 1,1 To/s en écriture)
  • Stockage des données d'entrée/sortie volumineuses
  • Exécution en batch ou interactif
  • Performances optimales pour les opérations de lecture/écriture
JOBSCRATCHIdentique à SCRATCH
  • Espace créé en début de job et effacé à la fin de ce dernier
  • Stockage identique à SCRATCH
Identiques à SCRATCH
STORE50 To (*) et 100 kinodes (*) par projet
  • Espace non sauvegardé
  • Cache disque et bandes magnétiques
  • Accès longs si fichier uniquement sur bande
  • Stockage d'archives sur du long terme (durée de vie du projet)
  • Pas accessible depuis les nœuds de calcul
DSDIR3,3 Po au total pour tous les utilisateurs
  • Accès en lecture seule pour les utilisateurs
  • Base de données additionnelles téléchargeables par l'IDRIS sur demande
  • Stockage de bases de données publiques accessibles en lecture à tous les utilisateurs

(*) les quotas par projet peuvent être augmentés sur demande du chef de projet ou de son suppléant via l'interface Extranet ou sur demande auprès du support utilisateurs.

Description détaillée des espaces disques

HOME

Il s'agit du répertoire d'accueil lors d'une connexion interactive. Cet espace, propre à chaque utilisateur, est unique même dans le cas d'un login multi-projets et est régulièrement sauvegardé. Il est destiné aux fichiers de petite taille très souvent utilisés, comme les fichiers d'environnement du shell, les utilitaires, éventuellement les sources et les bibliothèques quand leur taille est raisonnable.

Cet espace est volontairement limité par des quotas par utilisateur, à la fois en termes de volumétrie (Go) et en nombre total de fichiers (inodes). Il est accessible en interactif ou dans un travail batch via la variable $HOME :

cd $HOME# ou simplement :cd

WORK

Il s'agit d'un espace de travail et de stockage, utilisable en interactif comme en batch et non sauvegardé. On y stocke généralement les fichiers de taille importante qui servent lors des exécutions en batch : les fichiers sources volumineux et les bibliothèques, les fichiers de données, les exécutables, les fichiers de résultats, les scripts de soumission, etc.

Le WORK est un espace disque limité par des quotas par projet, à la fois en termes de volumétrie (Go) et en nombre total de fichiers (inodes). Il offre une bande passante d'environ 300 Go/s en écriture et en lecture. Celle-ci peut être ponctuellement saturée en cas d'utilisation exceptionnellement intensive. On y accède par la commande :

cd $WORK
Recommandations d'utilisation
  • Les travaux batch peuvent s'exécuter dans le WORK ; cependant, plusieurs de vos travaux pouvant s'exécuter en même temps, il vous faut gérer l'unicité de vos répertoires d'exécution et/ou de vos noms de fichiers.
  • De plus, il est soumis à des quotas (par projet) qui peuvent stopper brutalement votre exécution s'ils sont atteints. Ainsi, dans le WORK, il faut tenir compte non seulement de votre propre activité, mais aussi de celle de vos collègues de projet. Pour ces raisons, on pourra alors être amené à lui préférer le SCRATCH ou le JOBSCRATCH (voir ci-après) pour l'exécution de ses travaux batch.

SCRATCH

Il s'agit d'un espace de travail et de stockage utilisable en interactif comme en batch. Il est non sauvegardé, et la durée de vie des fichiers non-utilisés (non lus et non modifiés) y est limitée à 30 jours. On y stocke généralement les fichiers de taille importante qui servent lors des exécutions en batch : les fichiers de données, les fichiers de résultats ou de reprise de calcul (restarts).

Il est limité par des quotas de sécurité très larges de l'ordre d'1/10ième de l'espace disque total et des quotas inode par projet de l'ordre de 150 millions de fichiers et répertoires. Le SCRATCH est un espace disque dont la bande passante est supérieure à 1 To/s en écriture et en lecture. Il est accessible via :

cd $SCRATCH
Recommandations d'utilisation
  • Une fois le post-traitement effectué pour réduire le volume de données, il est conseillé de faire une copie des fichiers significatifs dans l'espace WORK (ou STORE pour un archivage à long terme) afin de ne pas les perdre après 30 jours d'inactivité. Il est également recommandé de conserver une archive des jeux de données d'entrée.
  • Le SCRATCH peut être vu comme un WORK semi-temporaire, mais avec les performances d'entrées/sortie maximales offertes à l'IDRIS, au prix d'une durée de vie des fichiers de 30 jours.
  • Les caractéristiques semi-temporaires du SCRATCH permettent d'y stocker de gros volumes de données qui pourront être partagées lors de l’enchaînement de deux ou plusieurs jobs sur une durée limitée à quelques semaines : cet espace n'est pas "purgé" après chaque job (contrairement au JOBSCRATCH ci-après).

JOBSCRATCH

Ce répertoire possède les mêmes caractéristiques que le SCRATCH, mais avec une durée de vie des fichiers limitée à celle d'un unique travail batch : il est créé automatiquement au début de celui-ci et est détruit automatiquement à la fin de son exécution. Au sein du travail batch considéré, le répertoire est accessible via la variable d'environnement $JOBSCRATCH. Le même répertoire est aussi accessible depuis la frontale Jean Zay pendant toute la durée d'exécution du travail batch considéré, comme un sous-dossier du répertoire /lustre/fsn1/jobscratch. Le nom du sous-dossier est la concaténation de votre login (variable d'environnement $LOGNAME) et du numéro JOBID associé au travail considéré (voir la sortie de la commande squeue) :

MYJOBID=insérer_votre_jobid_icicd /lustre/fsn1/jobscratch/${LOGNAME}_${MYJOBID}
Recommandations d'utilisation

On peut voir le JOBSCRATCH comme l'ancien TMPDIR. Notez que si la variable $TMPDIR intervient dans les codes utilisés, il est possible de simplement définir export TMPDIR=$JOBSCRATCH avant l’exécution, pour ne pas avoir à intervenir dans les codes concernés.

STORE

C'est l'espace d'archivage de l'IDRIS, destiné au stockage à long terme de données. On y stocke généralement les fichiers de taille très importante, fruits du tar d'une arborescence de fichiers résultats de calcul, après post-traitement.

attention

La taille maximum est de 10 Tio par fichier et la taille minimum conseillée de 250 Mio (ratio taille disque / nombre d'inodes).

C'est un espace qui n'a pas pour vocation d'être accédé ou modifié quotidiennement, mais qui permet de préserver dans le temps de très gros volumes de données avec une consultation épisodique. Il est soumis à des quotas par projet avec un faible nombre d'inodes, mais un très grand espace. on y accède par la commande :

cd $STORE
Changement important

Depuis le 22 juillet 2024, le STORE est uniquement accessible depuis les frontales et les partitions prepost, archive, compil et visu. Les travaux s'exécutant sur les nœuds de calcul n'auront plus directement accès à cet espace mais vous pouvez utiliser des travaux chaînés pour automatiser la gestion des données depuis/vers le STORE (voir nos exemples de travaux chaînés utilisant le STORE).

Recommandations d'utilisation
  • Les fichiers n'y ont pas une durée de vie limitée.
  • Stockage de très gros fichiers (tels que des archives .tar) mais en nombre limité.
  • Comme il s'agit d'un espace d'archive, il n'est pas conçu pour des accès fréquents. Les fichiers migrés sur bande magnétique auront des temps d'accès accrus.

DSDIR

Cette espace disque contient des bases de données publiques volumineuses (en taille ou en nombre de fichiers) et des collections de modèles largement utilisées, nécessaires à l'utilisation d'outils de l'Intelligence Artificielle.

remarque

Ces bases de données sont visibles par l'ensemble des utilisateurs de Jean Zay.

Les bases de données actuellement disponibles sur Jean Zay sont listées sur une page dédiée. Si vous souhaitez exploiter des bases de données qui ne s'y trouvent pas déjà, l'IDRIS les téléchargera et les installera dans cet espace disque à votre demande si leurs licences nous le permet.

Si votre base de données est personnelle ou sous licence trop restrictive, il vous faudra prendre en charge vous-même sa gestion sur les espaces disques de votre projet, comme décrit dans la page "Gestion de bases de données".

Remarques et caractéristiques additionnelles

Sauvegardes

Attention

Suite à la migration vers les nouveaux espaces de stockage Lustre, l'espace disque WORK n'est plus sauvegardé. Nous vous recommandons de conserver une copie de vos données importantes sous forme d'archives stockées sur votre STORE.

Quotas

Les espaces disques HOME, WORK, SCRATCH et STORE sont soumis à des quotas d'espace disque et de nombre de fichiers (inodes). Les quotas sont détaillés sur la page Gestion des quotas.

Espaces disques et projets

Dans le cas d'un login multi-projet, un espace disque de chaque type (WORK, SCRATCH, STORE) existe pour chaque projet. Ainsi, un utilisateur appartenant à plusieurs projets disposera d'un espace WORK, SCRATCH et STORE par projet.

remarque

Un utilisateur multi-projet peut accéder à l'ensemble des espaces de tous ses projets via diverses variables d'environnement listées par la commande IDRIS idrenv.

Les variables WORK, SCRATCH et STORE référencent uniquement les espaces disque liés à votre projet actif qui a été sélectionné par défaut lors de la connexion ou manuellement via les commandes dédiées.

De plus, chaque espace disque WORK, SCRATCH et STORE est divisé en deux parties :

  • une partie propre à chaque utilisateur, accessible via les variables d'environnement $WORK, $SCRATCH et $STORE ;
  • une partie commune au projet permettant le partage de données, accessible via les variables d'environnement $ALL_CCFRWORK, $ALL_CCFRSCRATCH et $ALL_CCFRSTORE.

Nomenclature des variables d'environnement

L'IDRIS s'attache à respecter la nomenclature commune à celles des autres centres de calcul nationaux (CINES, TGCC). Ainsi, pour chaque espace disque présenté ci-dessus, une variable d'environnement alternative est disponible, en ajoutant le préfixe CCFR à la variable d'origine : $CCFRHOME, $CCFRWORK, $CCFRSCRATCH et $CCFRSTORE (voir la sortie de la commande IDRIS idrenv.