******************************************************************** Flash Info de l'IDRIS n°2024-21 (30/07/2024) Migration du WORK et du HOME ******************************************************************** [English version below] Bonjour, Comme annoncé précédemment, l'arrivée de l'extension H100 s'accompagne d'un renouvellement des espaces de stockage de Jean Zay avec l'installation d'un nouveau système de stockage Lustre qui offrira une volumétrie de stockage plus importante et une bande passante améliorée. La migration des HOME est terminée depuis la maintenance de ce matin (30 juillet 2024). Nous vous invitons à vérifier vos scripts pour corriger les éventuels chemins codés en dur. Tout chemin de la forme "/gpfs7kw/linkhome/..." doit devenir "/linkhome/..." ou, si possible, être remplacé par l'usage de la variable d'environnement $HOME. La migration des espaces WORK a démarré aujourd'hui. Elle est également effectuée par les équipes de l'IDRIS, vous n'avez donc pas d'action particulière à effectuer. Cette opération se fera par lot pour éviter une trop longue indisponibilité de la machine. Elle nécessitera cependant l'interruption des QoS "qos_cpu-t4" et "qos_gpu-t4" permettant l'exécution des travaux de plus de 20h. Pour un projet donné, la migration se passera de la façon suivante : - 20h avant le début de la migration, les travaux utilisant les heures du projet ne pourront plus démarrer afin d'éviter que des travaux essaient d'accéder au WORK pendant l'opération (ils apparaîtront alors avec le statut "AssocGrpJobsLimit") - juste avant le début de la migration, l'espace WORK du projet deviendra complètement indisponible, y compris depuis les frontales - une fois la migration terminée, les variables d'environnement seront modifiées afin de pointer vers les nouveaux espaces WORK sur le système de stockage Lustre et les travaux en attente pourront à nouveau s'exécuter. Attention : Si vous avez des travaux qui utilisent les heures d'un projet mais accèdent à l'espace WORK d'un autre projet, ils risquent d'échouer car nous ne pourrons pas bloquer leur démarrage de façon pertinente. Une commande "idr_migstatus" vous permet de suivre la migration de vos projets en indiquant pour chacun son statut actuel : - "pending" : la migration n'a pas encore été effectuée, vos travaux peuvent toujours s'exécuter et vous avez accès à votre WORK - "planned" : la migration va commencer dans les prochaines 24h, les nouveaux travaux ne peuvent plus démarrer mais vous avez toujours accès à votre WORK - "in progress" : la migration est en cours, vous n'avez plus accès à votre WORK - "migrated" : la migration est terminée, vous avez à nouveau accès à votre WORK et vos travaux peuvent à nouveau s'exécuter. Remarque : Le chemin absolu des espaces WORK va changer à l'occasion de la migration mais pour simplifier la transition, des liens seront mis en place de sorte à ce que les anciens chemins absolus restent fonctionnels au moins dans un premier temps. Une fois la migration effectuée, nous vous invitons néanmoins à modifier les éventuels chemins de la forme "/gpfswork/..." ou "/gpfsdswork/projects/..." qui pourraient apparaître dans vos scripts (si possible en les remplaçant par l'usage de la variable d'environnement) ou dans vos liens symboliques. Nous nous excusons pour la gêne que ces opérations pourraient engendrer. Cordialement, L'équipe support de l'IDRIS -------------------------------------------------- Dear Jean Zay user, As previously announced, the installation on the new H100 extension comes with a renewal of the Jean Zay storage spaces with the installation of a new Lustre storage system offering an increased storage capacity and an improved bandwidth. The migration of the HOME spaces is completed since today's maintenance operation (July 30th, 2024). We invite you to check your scripts in order to correct any hard-coded paths. Any path starting with "/gpfs7kw/linkhome/..." should become "/linkhome/..." or, if possible, the $HOME environment variable should be used instead. The migration of the WORK spaces started today. This operation is also handled by the IDRIS teams so you do not have any specific actions to perform. The migration will be done by batch of projects to avoid having a long downtime of the machine. It will however require suspending the "qos_cpu-t4" and "qos_gpu-t4" QoS which allow running jobs of more than 20h. For a specific project, the migration process will be as follow: - 20h before the migration begins, the jobs using computing hours allocated to that project will be held in queue (with the "AssocGrpJobsLimit" status) in order to avoid having jobs that use the WORK during the migration operation - just before the migration starts, the WORK space will become completely unavailable, including from the login nodes - once the migration is done, the environment variables will be modified to point to the new Lustre WORK space and your jobs will be able to run again. Warning: If you have jobs that use the computing hours from a project but access the WORK disk spaces of another project, they might fail because we have no way to prevent them from starting when they should not. The "idr_migstatus" command allows to monitor the migration of your projects by indicating the current status of each of them: - "pending" : the migration has not started yet, there is no impact on your jobs and you can access your WORK - "planned" : the migration is going to start in the next 20h, jobs that are not yet running will stay pending but you can still access your WORK - "in progress" : the migration is in progress, you will not have access to your WORK at this point - "migrated" : the migration is done, you can access your WORK again and your jobs can run. Note: The absolute paths of the WORK spaces will be modified by the migration. However to ease the transition, symbolic links will be created in order to keep the old absolute paths working, at least for some times. Once the migration is completed, we do invite you to modify any absolute paths starting with "/gpfswork/..." or "/gpfsdswork/projects/..." that could appear in your scripts (use the environment variables whenever possible) or in your symbolic links. We are sorry for the inconvenience those operations might cause. Best regards, The IDRIS support team