en:hpc [2022/07/04 08:20]
Line 72: Line 72:
 If **Kerberos** is used: If **Kerberos** is used:
-  * Log in to the Linux environment in a VU MIF classroom or public terminal with your VU MIF username and password or login to **** with your VU MIF username and password using ssh or putty.+  * Log in to the Linux environment in a VU MIF classroom or public terminal with your VU MIF username and password or login to **** with your VU MIF username and password using **ssh** or **putty**.
   * Check if you have a valid Kerberos key (ticket) with the **klist** command. If the key is not available or has expired, the **kinit** command must be used.   * Check if you have a valid Kerberos key (ticket) with the **klist** command. If the key is not available or has expired, the **kinit** command must be used.
   * Connect to the **hpc** node with the command **ssh hpc** (password must not be required).   * Connect to the **hpc** node with the command **ssh hpc** (password must not be required).
-  * The **first time** you log in, you must wait **5 minutes** and then you can start to use HPC. 
 If **SSH keys** are used (e.g. if you need to copy big files): If **SSH keys** are used (e.g. if you need to copy big files):
Line 82: Line 81:
   *     Connect with **ssh**, **sftp**, **scp**, **putty**, **winscp** or any other **ssh** protocol supported software to **** with your **ssh private key**, specifying your VU MIF user name. It should not require a login password, but may require your ssh private key password.   *     Connect with **ssh**, **sftp**, **scp**, **putty**, **winscp** or any other **ssh** protocol supported software to **** with your **ssh private key**, specifying your VU MIF user name. It should not require a login password, but may require your ssh private key password.
-The first time you connect, you **will not** be able to run **SLURM tasks** for the first **5 minutes**. After that, SLURM account will be created.+The **first time** you connect, you **will not** be able to run **SLURM jobs** for the first **5 minutes**. After that, SLURM account will be created.
 ====== Lustre - Shared File System ====== ====== Lustre - Shared File System ======
Line 93: Line 92:
 Please use these directories only for their purpose and clean them up after calculations. Please use these directories only for their purpose and clean them up after calculations.
 +====== HPC Partition ======
 +^Partition ^Time limit ^RAM    ^Notes|
 +^main             ^7d            ^7000MB  ^CPU cluster|
 +^gpu              ^48h           ^12000MB ^GPU cluster|
 +^power            ^48h           ^2000MB  ^IBM Power9 cluster|
 +The time limit for tasks is **2h** in all partitions if it has not been specified. The table shows the maximum time limit.
 +The **RAM** column gives the amount of RAM allocated to each reserved **CPU** core.
 +====== Batch Processing of Tasks (SLURM) ======
 +To use computing resources of the HPC, you need to create task scenarios (sh or csh). 
 +<code shell>
 +#SBATCH -p main
 +#SBATCH -n4
 +module load openmpi
 +mpicc -o mpi-test mpi-test.c
 +mpirun mpi-test
 +Pateikus paraišką ITAPC ir gavus teigimą sprendimą, reikia susikurti naudotoją Sukurtas naudotojas bus įtrauktas į atitinkamą projektą, kuris turės tam tikrą kiekį resursų. Norint naudoti projekto resursus atliekant skaičiavimus reikia nurodyti savo alokacijos numerį. Žemiau pateiktas pavyzdys su nustatytu alokacijos parametru "alloc_xxxx_projektas" (taikomas ne VU MIF naudotojams, VU MIF naudotojai -- account parametro nurodyti neturi).
 +<code shell>
 +#SBATCH --account=alloc_xxxx_projektas
 +#SBATCH -p main
 +#SBATCH -n4
 +#SBATCH --time=minutes
 +module load openmpi
 +mpicc -o mpi-test mpi-test.c
 +mpirun mpi-test
 +Jame kaip specialūs komentarai yra nurodymai užduočių vykdytojui.
 + -p short - į kokią eilę siųsti (main, gpu, power).
 + -n4 - kiek procesorių rezervuoti (**PASTABA:** nustačius naudotinų branduolių skaičių x, tačiau realiai programiškai išnaudojant mažiau, apskaitoje vis tiek bus skaičiuojami visi x "užprašyti" branduoliai, todėl rekomenduojame apsiskaičiuoti iš anksto).
 +Užduoties pradinis einamasis katalogas yra dabartinis katalogas (**pwd**) prisijungimo mazge iš kur paleidžiama užduotis, nebent parametru -D pakeistas į kitą. Pradiniam einamajam katalogui naudokite PST bendros failų sistemos katalogus **/scratch/lustre**, nes jis turi egzistuoti skaičiavimo mazge ir ten yra kuriamas užduoties išvesties failas **slurm-JOBID.out**, nebent nukreiptas kitur parametrais -o arba -i (jiems irgi patariama naudoti bendrą failų sistemą).
 +Suformuotą scenarijų siunčiame su komanda sbatch
 +''$ sbatch mpi-test-job''
 +kuri gražina pateiktos užduoties numerį **JOBID**.
 +Laukiančios arba vykdomos užduoties būseną galima sužinoti su komanda squeue
 +''$ squeue -j JOBID''
 +Su komanda scancel galima nutraukti užduoties vykdymą arba išimti ją iš eilės
 +''$ scancel JOBID''
 +Jeigu neatsimenate savo užduočių **JOBID**, tai galite pasižiūrėti su komanda **squeue**
 +''$ squeue''
 +Užbaigtų užduočių **squeue** jau neberodo.
 +Jeigu nurodytas procesorių kiekis nėra pasiekiamas, tai jūsų užduotis yra įterpiama į eilę. Joje ji bus kol atsilaisvins pakankamas kiekis procesorių arba kol jūs ją pašalinsite su **scancel**.
 +Vykdomos užduoties išvestis (**output**) yra įrašoma į failą **slurm-JOBID.out**. Jei nenurodyta kitaip, tai ir klaidų (error) išvestis yra įrašoma į tą patį failą. Failų vardus galima pakeisti su komandos **sbatch** parametrais -o (nurodyti išvesties failą) ir -e (nurodyti klaidų failą).
 +Daugiau apie SLURM galimybes galite paskaityti [[|Quick Start User Guide]].
