Ouessant : commandes de contrôle des travaux batch

Les travaux sont gérés sur l'ensemble des nœuds par le logiciel LSF. Les principales commandes utiles pour contrôler vos travaux sont présentées ci-dessous.

Pour soumettre un travail : bsub

La commande bsub est utilisée pour soumettre un travail en batch :

$ bsub < mon_job.sh
Job <19661> is submitted to queue <computet1>.

Pour afficher les travaux dans les files d'attente : bjobs

La commande bjobs affiche des informations sur l'évolution et la consommation de tous vos travaux batch sur la machine.

$ bjobs 
JOBID    JOB_NAME       USER     STAT   START_TIME     RUN_TIME         SLOTS  EXEC_HOST
19661    Hydro          rlab432  RUN    Apr 19 11:09   53 second(s)     20     20*ouessantm03
19662    Hydro          rlab432  PEND         -        0 second(s)        -    -

La colonne STAT (Status) indique si votre job s'exécute ( RUN pour Running) ou est en attente ( PEND pour Pending).

Attention : si vous ne trouvez pas le retour d'un travail terminé, c'est très probablement que vous n'êtes pas dans le répertoire de soumission. Il est aussi possible que vous soyez en dépassement de quota, ou encore que vous ayez omis de spécifier les fichiers de sortie et d'erreur dans votre script de soumission (lignes #BSUB -o et #BSUB -e). Dans ce dernier cas, votre retour de job est perdu.

Pour supprimer un travail : bkill

La commande bkill permet de supprimer un travail. Par exemple, pour supprimer le travail 19661 s'exécutant sur l'un des nœuds de la machine :

$ bkill 19661
Job <19661> is being terminated

Voir les sorties en cours d’exécution : bpeek

Les sorties standards et erreurs sont bufferisées pendant l'exécution du travail. En conséquence, les fichiers spécifiés dans le script restent vides en cours d'exécution.

Pour afficher ces sorties, il faut utiliser la commande bpeek <job_id>. Si on n'indique pas <job_id> cette commande affiche les sorties du dernier travail exécutés.