CEEMS : outil de mesure de l'énergie sur Jean Zay
Qu'est ce que CEEMS ?
L'outil CEEMS (Compute Energy & Emissions Monitoring Stack) de mesure de l'énergie est mis à la disposition des utilisateurs de Jean Zay. Il s'agit d'un outil open-source (lien github) avec une documentation en ligne (lien doc).
Notez que l'outil CEEMS se base sur des données obtenues au niveau des nœuds de calcul. Par conséquent, il ne tient pas compte des aspects tels que le refroidissement, le réseau d'interconnexion, les entrées/sorties, … Si votre but est d'évaluer votre empreinte carbone globale en prenant aussi en compte ces aspects, vous pouvez utiliser les chiffres fournis par GENCI à ce sujet (disponibles ici).
Accéder à CEEMS
L'instance de CEEMS sur Jean Zay est accessible via un service d'authentification Single Sign-On (SSO) avec votre identifiant et mot de passe Jean Zay, à l'adresse : https://jean-zay-ceems.idris.fr . Les modalités de connexion sont identiques à celles utilisées pour accéder à JupyterHub, comme indiqué sur la page Jupyterhub.
Page d'acceuil CEEMS
Utiliser CEEMS
Depuis la page d'accueil, il faut se rendre dans le menu Home > Dashboards > SLURM Job Metrics > User Job Summary si ce n'est pas déjà le cas.
Le haut de la page affichée se présente alors comme suit :
Path vers la rubrique "User Job Summary"
Paramètres de mesure
Account
Sur cette page, vous pouvez sélectionner le type d'heures souhaité via le menu déroulant Account (…@cpu, …@v100, …@a100 ou …@h100). Les choix disponibles, ainsi que l'option par défaut, dépendent des heures attribuées au projet.
Coefficient d'émission de CO2
Vous pouvez aussi choisir le coefficient d'émission de CO2 à utiliser (variable en fonction de la référence choisie) à l'aide du menu déroulant Emission Factor Provider. Il sert de base au calcul de la quantité de CO2 émise par vos jobs. Vous pouvez obtenir des informations sur les choix possibles dans l'encart à droite de la page intitulé “README”.
Période d'analyse des données
Il est possible de choisir la période d'analyse des données via le menu déroulant Last 90 days (qui est la valeur par défaut).
Refresh
Notez que le menu déroulant Refresh à droite vous permet de désactiver le rafraîchissement automatique ou de l'activer en choisissant la fréquence.
Affichages
Suite aux choix précédents, vous pouvez consulter les statistiques correspondantes pour :
- l'utilisation globale par l'utilisateur, dans la rubrique “Aggregate Usage Statistics of User…” :

- l'utilisation globale pour le projet, dans la rubrique “Aggregate Usage Statistics of Project…” :

- la répartition de l'utilisation de l'énergie et des émissions au sein du projet, dans la rubrique “Breakdown of Energy and Emissions Usage …” :

- et les métriques pour vos jobs, dans la rubrique “Job Metrics …” :

Chaque rubrique contient un README qui fournit une introduction sur la rubrique concernée ainsi qu'une définition des métriques agrégées présentées.
Détails par job
La rubrique “Job Metrics…”, liste vos jobs pour la partition et la période d'analyse sélectionnées. Ils apparaissent quelques minutes après le démarrage des jobs (au plus tard 30 min). Les informations sont ensuite mises à jour en temps réel (suivant la durée de rafraîchissement choisie).
Seuls les jobs d'une durée supérieure à 5 minutes sont affichés !
En cliquant sur un job dans la liste “Job Metrics”, vous accédez au tableau de bord “Single Job Metrics”. Dans ce tableau de bord, vous aurez, pour ce job, des statistiques détaillées par nœud (via le menu déroulant “Compute Node”) et éventuellement par GPU (via le menu déroulant “GPU”), en fonction du type de job (CPU ou GPU).
Tableau de bord "Single Job Metrics"
Le tableau de bord “Single Job Metrics” comprend plusieurs sections, telles que CPU Stats, GPU Stats et GPU Profiling Stats. Les définitions des métriques présentées dans ces sections sont disponibles dans le README de cette page. Cette page fournit également des données de profilage et des statistiques sur les entrées/sorties (I/O). Notez que pour activer certaines de ces fonctionnalités, vous devez configurer les variables d’environnement correspondantes, tel qu'indiqué dans le README.