Vargas: commandes de contrôle des travaux batch



Vous êtes ici : Support technique → Calcul scalaire → Exécution/contrôle d'un code en batch → commandes de contrôle des travaux batch.


Voici les principales commandes utiles pour contrôler vos travaux :
  1. llsubmit pour soumettre un travail en batch 
     
    rlab432@vargas> llsubmit mon_job.ll
    llsubmit: Processed command file through Submit Filter: "/local/loadl/Fidris/llsubmit_exit".
    llsubmit: The job "vargas043.idris.fr.1942" has been submitted.
        
    Toute autre sortie implique une erreur dans le job; parfois un message succint mis en place par l'IDRIS vous indiquera quel paramètre de soumission a été omis, ou pose problème.
    Note : à l'IDRIS, la commande llsubmit n'admet aucune option.

  2. llcancel pour supprimer un travail.
    Par exemple, pour supprimer le travail vargas043.1942.0 s'exécutant sur la machine BlueGene/P :
     
    rlab432@babel> llq -u rlab432
    Id                       Owner      Submitted   ST PRI Class        Running On
    ------------------------ ---------- ----------- -- --- ------------ -----------
    vargas043.1942.0         rlab432     1/4  11:42 R  100 c8t1         vargas012
    rlab432@babel> llcancel 1942
    llcancel: Cancel command has been sent to the central manager.
        

  3. llq [-u login] affiche des informations sur l'évolution et la consommation de tous les travaux batch sur la machine. L'option -u restreint cet affichage à vos propres travaux.
     
    rlab432@babel> llq -u rlab432
    Id                       Owner      Submitted   ST PRI Class        Running On
    ------------------------ ---------- ----------- -- --- ------------ -----------
    vargas043.2630.0         rlab432     1/4  11:44 R  100 mt8t1        vargas072
    
    1 job step(s) in query, 0 waiting, 0 pending, 1 running, 0 held, 0 preempted
          
    La colonne ST (Status) indique si votre job est R (Running) ou en attente I (Idle).
    Les autres états courants sont Not Queued en dehors des files d'attente, Hold, Changing State quand un job ou une étape sont terminés mais en train de sortir des files d'attente.

  4. Qstat [-a] affiche des informations sur l'évolution et la consommation de vos travaux batch sur la machine Vargas.
    L'option -a étend l'affichage à l'ensemble des travaux. Pour plus d'information, cf. man Qstat.

  5. jar affiche des informations concernant la consommation de vos travaux batch sur la machine Vargas. Elle permet notamment l'affichage :
    Les informations pour un travail ne sont récupérables qu'à partir du lendemain de son exécution.
    Pour plus d'informations lancez jar -h sur Vargas.
    Exemples :
    vargas-rlab000$ jar -d1
    |--------------------------------------------|
    |--- IDRIS/CNRS. Version du  2 avril 2009 ---|
    |--------------------------------------------|
    
    Sorties concernant l'identifiant rlab000 pour la période du
            ==> 01 janvier 2009 au 31 janvier 2009
    
    
     Owner      Job Name           JobId       Queue tEse tCpu  #T    (%)   S
    ------- ---------------- ----------------- ----- ---- ----- --- ------- -
    rlab000 TEST_200_ssmodul vargas043.74526.0 batch  371    32  16    0.54 R
    rlab000 TEST_200_ssmodul vargas043.74535.0 batch 1397  2370  16   10.60 C
    rlab000 TEST_200_ssmodul vargas043.74589.0 batch 3736 20125  16   33.67 R
    -------------------------------------------------------------------------
    
    
            CONSOMMATION TOTALE DES TRAVAUX CI-DESSUS ==> 88064s, soit 24.46h (*)
    
    (*) depuis le 12 janvier 2009 la consommation est basée sur le temps
        "elapsed" multiplié par le nombre de processeurs utilisés.
        Avant cette date, il s'agissait du temps cpu.
    
    ---------------------------------- LEGENDE ----------------------------------
    tEse  : temps "Elapsed" consommé en heures.
    tCpu  : temps CPU consommé en heures.
    #T    : nombre de tâches ou de processeurs utilisés.
    (%)   : taux d'efficacité du travail ==> tCpu*100/(tEse*#T).
    S     : C (completed) ==> travail terminé normalement.
            R (removed)   ==> travail détruit en cours d'exécution à l'aide
                              de la commande "llcancel" par exemple.
        
    vargas-rlab000$ jar -d1 -l
    |--------------------------------------------|
    |--- IDRIS/CNRS. Version du  2 avril 2009 ---|
    |--------------------------------------------|
    
    Sorties concernant l'identifiant rlab000 pour la période du
            ==> 01 janvier 2009 au 31 janvier 2009
    
    
          JobId       Queue Qdate Bdate Edate   tEse       tCpu     Data+Stack MAXRSS #T    (%)   S
    ----------------- ----- ----- ----- ----- -------- ------------ ---------- ------ --- ------- -
    vargas043.74526.0 batch 13/01 13/01 13/01      371           32       9663     80  16    0.54 R
                            15:38 15:38 15:44 00:06:11 000+00:00:32
    vargas043.74535.0 batch 13/01 13/01 13/01     1397         2370       9663     91  16   10.60 C
                            15:45 15:45 16:08 00:23:17 000+00:39:30
    vargas043.74589.0 batch 13/01 13/01 13/01     3736        20125       9663     23  16   33.67 R
                            16:09 16:09 17:11 01:02:16 000+05:35:25
    -----------------------------------------------------------------------------------------------
    
    
            CONSOMMATION TOTALE DES TRAVAUX CI-DESSUS ==> 88064s, soit 24.46h (*)
    
    (*) depuis le 12 janvier 2009 la consommation est basée sur le temps
        "elapsed" multiplié par le nombre de processeurs utilisés.
        Avant cette date, il s'agissait du temps cpu.
    
    ---------------------------------- LEGENDE ----------------------------------
    Qdate      : date et heure d'entrée du travail dans la queue LoadLeveler.
    Bdate      : date et heure de début d'exécution du travail.
    Edate      : date et heure de fin d'exécution du travail.
    tEse       : temps "Elapsed" consommé en secondes et en "heures, minutes,
                 secondes" (format ==> hh:mm:ss).
    tCpu       : temps CPU consommé en secondes et en "jours, heures, minutes,
                 secondes" (format ==> jjj+hh:mm:ss).
    Data+Stack : mémoire "Data+Stack" demandée (en MégaBytes).
    MAXRSS     : mémoire maximum utilisée par le travail (en MégaBytes).
    #T         : nombre de tâches ou de processeurs utilisés.
    (%)        : taux d'efficacité du travail ==> tCpu*100/(tEse*#T).
    S          : C (completed) ==> travail terminé normalement.
                 R (removed)   ==> travail détruit en cours d'exécution à l'aide
                                   de la commande "llcancel" par exemple.
        


Attention : si vous ne trouvez pas le retour d'un travail terminé, c'est très probablement que vous n'êtes pas dans le répertoire de soumission. Il est aussi possible que vous soyiez en dépassement de quota sur Vargas, ou encore que vous avez omis de spécifier les fichiers de sortie et d'erreur dans votre script de soumission (lignes # @ output et # @ error) : dans ce dernier cas, votre retour de job est perdu.

© CNRS - IDRIS, 13/01/2012