Babel : commandes de contrôle des travaux batch

Voici les principales commandes utiles pour contrôler vos travaux :

  • llsubmit pour soumettre un travail en batch 
  rlab432@babel> llsubmit mon_job.ll
  llsubmit: Processed command file through Submit Filter: ''/bglocal/loadl/Fidris/llsubmit_exit''.
  llsubmit: The job ''babel1-adm.idris.fr.19942'' with 3 job steps has been submitted.

Toute autre sortie implique une erreur dans le job; parfois un message succint mis en place par l'IDRIS vous indiquera quel paramètre de soumission a été omis. Note : à  l'IDRIS, la commande llsubmit n'admet aucune option.  

  • llq [-u] affiche des informations sur l'évolution et la consommation de tous les travaux batch sur la machine. L'option -u restreint cet affichage à vos propres travaux.
  rlab432@babel> llq -u rlab432
  Id                       Owner      Submitted   ST PRI Class        Running On
  ------------------------ ---------- ----------- -- --- ------------ -----------
  babel1-adm.21630.0       rlab432     4/1  11:44 R  100 MRt1         babel1-adm
  1 job step(s) in query, 0 waiting, 0 pending, 1 running, 0 held, 0 preempted

La colonne ST (Status) indique si votre job est R (Running) ou en attente I (Idle). Les autres états courants sont Not Queued en dehors des files d'attente, Hold, Changing state quand un job ou une étape sont terminés mais en train de sortir des files d'attente.  

  • llcancel pour supprimer un travail. Par exemple, pour supprimer le travail babel1-adm.19942.0 s'exécutant sur la machine BlueGene/P :
  rlab432@babel> llq -u rlab432
  Id                       Owner      Submitted   ST PRI Class        Running On
  ------------------------ ---------- ----------- -- --- ------------ -----------
  babel1-adm.19942.0       rlab432     4/1  11:42 R  100 MRt1         babel1-adm
  rlab432@babel> llcancel 19942
  llcancel: Cancel command has been sent to the central manager
  • jar affiche des informations concernant la consommation de vos travaux batch sur la machine Babel. Elle permet notamment l'affichage :
    • de la durée d'exécution (temps elapsed) ;
    • des dates de soumission, de démarrage et de fin d'exécution ;
    • des ressources réservées. Les informations pour un travail ne sont récupérables qu'à partir du lendemain de son exécution. Pour plus d'informations lancez jar -h sur Babel. Exemple :
  rlab432@babel1:~> jar
  |----------------------------------------------|
  |--- IDRIS/CNRS. Version du 15 janvier 2010 ---|
  |----------------------------------------------|
  Sorties concernant l'identifiant rlab432 pour la période du
          ==> 01 janvier 2010 au 31 janvier 2010
   Owner                  Job Name                       JobId        Queue tEse   #T   S
  ------- ---------------------------------------- ------------------ ----- ----- ----- -
  rlab432 run_test_big                             babel1-adm.82766.0 2Rt3  66684  8192 C
  rlab432 nom_travail1234                          babel1-adm.83111.0 1Rt2  34007  4096 C
  rlab432 run_test_small                           babel1-adm.82992.0 MRt2  27457   512 C
  rlab432 run_test_small                           babel1-adm.83064.0 MRt2  27384   512 C
  rlab432 run_test_short_medium                    babel1-adm.83249.0 1Rt2    312  4096 R
  ---------------------------------------------------------------------------------------
          CONSOMMATION TOTALE DES TRAVAUX CI-DESSUS ==> 714924544, soit 198590.15h
  ------------------------------- LEGENDE -------------------------------
  tEse  : temps ''Elapsed'' consommé en secondes.
  #T    : nombre de coeurs réservés.
  S     : C (completed) ==> travail terminé normalement.
          R (removed)   ==> travail détruit en cours d'exécution à l'aide
                            de la commande ''llcancel'' par exemple.