IT wiki

VU MIF STSC

User Tools

Site Tools


en:hpc

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Next revisionBoth sides next revision
en:hpc [2022/07/04 08:09] grikieteen:hpc [2022/07/04 08:20] – [Paketinis užduočių vykdymas (SLURM)] grikiete
Line 93: Line 93:
 Please use these directories only for their purpose and clean them up after calculations. Please use these directories only for their purpose and clean them up after calculations.
  
-====== PST eilės (partition) ======+====== HPC Partition ======
  
-^Eilė (partition) ^Laiko limitas ^RAM    ^Pastabos+^Partition ^Time limit ^RAM    ^Notes
-^main             ^7d            ^7000MB  ^CPU telkinys+^main             ^7d            ^7000MB  ^CPU cluster
-^gpu              ^48h           ^12000MB ^GPU telkinys+^gpu              ^48h           ^12000MB ^GPU cluster
-^power            ^48h           ^2000MB  ^IBM Power9 telkinys|+^power            ^48h           ^2000MB  ^IBM Power9 cluster|
  
-Visose eilėse užduotims laiko limitas yra **2h**, jei jis nebuvo nurodytas, o lentelėje yra pateiktas maksimalus leidžiamas laiko limitas.+The time limit for tasks is **2h** in all partitions if it has not been specified. The table shows the maximum time limit.
  
-**RAM** stulpelyje yra pateikiamas kiekvienam rezervuotam **CPU** branduoliui skiriamas RAM kiekis.+The **RAM** column gives the amount of RAM allocated to each reserved **CPU** core. 
 + 
 +====== Batch Processing of Tasks (SLURM) ====== 
 + 
 +To use computing resources of the HPC, you need to create task scenarios (sh or csh).  
 + 
 +Example: 
 + 
 +<code shell mpi-test-job.sh> 
 +#!/bin/bash 
 +#SBATCH -p main 
 +#SBATCH -n4 
 +module load openmpi 
 +mpicc -o mpi-test mpi-test.c 
 +mpirun mpi-test 
 +</code> 
 + 
 +Pateikus paraišką ITAPC ir gavus teigimą sprendimą, reikia susikurti naudotoją https://hpc.mif.vu.lt/. Sukurtas naudotojas bus įtrauktas į atitinkamą projektą, kuris turės tam tikrą kiekį resursų. Norint naudoti projekto resursus atliekant skaičiavimus reikia nurodyti savo alokacijos numerį. Žemiau pateiktas pavyzdys su nustatytu alokacijos parametru "alloc_xxxx_projektas" (taikomas ne VU MIF naudotojams, VU MIF naudotojai -- account parametro nurodyti neturi). 
 + 
 +<code shell mpi-test-job.sh> 
 +#!/bin/bash 
 +#SBATCH --account=alloc_xxxx_projektas 
 +#SBATCH -p main 
 +#SBATCH -n4 
 +#SBATCH --time=minutes 
 +module load openmpi 
 +mpicc -o mpi-test mpi-test.c 
 +mpirun mpi-test 
 +</code> 
 + 
 + 
 +Jame kaip specialūs komentarai yra nurodymai užduočių vykdytojui. 
 + 
 + -p short - į kokią eilę siųsti (main, gpu, power). 
 + 
 + -n4 - kiek procesorių rezervuoti (**PASTABA:** nustačius naudotinų branduolių skaičių x, tačiau realiai programiškai išnaudojant mažiau, apskaitoje vis tiek bus skaičiuojami visi x "užprašyti" branduoliai, todėl rekomenduojame apsiskaičiuoti iš anksto). 
 + 
 +Užduoties pradinis einamasis katalogas yra dabartinis katalogas (**pwd**) prisijungimo mazge iš kur paleidžiama užduotis, nebent parametru -D pakeistas į kitą. Pradiniam einamajam katalogui naudokite PST bendros failų sistemos katalogus **/scratch/lustre**, nes jis turi egzistuoti skaičiavimo mazge ir ten yra kuriamas užduoties išvesties failas **slurm-JOBID.out**, nebent nukreiptas kitur parametrais -o arba -i (jiems irgi patariama naudoti bendrą failų sistemą). 
 + 
 +Suformuotą scenarijų siunčiame su komanda sbatch 
 + 
 +''$ sbatch mpi-test-job'' 
 + 
 +kuri gražina pateiktos užduoties numerį **JOBID**. 
 + 
 +Laukiančios arba vykdomos užduoties būseną galima sužinoti su komanda squeue 
 + 
 +''$ squeue -j JOBID'' 
 + 
 +Su komanda scancel galima nutraukti užduoties vykdymą arba išimti ją iš eilės 
 + 
 +''$ scancel JOBID'' 
 + 
 +Jeigu neatsimenate savo užduočių **JOBID**, tai galite pasižiūrėti su komanda **squeue** 
 + 
 +''$ squeue'' 
 + 
 +Užbaigtų užduočių **squeue** jau neberodo. 
 + 
 +Jeigu nurodytas procesorių kiekis nėra pasiekiamas, tai jūsų užduotis yra įterpiama į eilę. Joje ji bus kol atsilaisvins pakankamas kiekis procesorių arba kol jūs ją pašalinsite su **scancel**. 
 + 
 +Vykdomos užduoties išvestis (**output**) yra įrašoma į failą **slurm-JOBID.out**. Jei nenurodyta kitaip, tai ir klaidų (error) išvestis yra įrašoma į tą patį failą. Failų vardus galima pakeisti su komandos **sbatch** parametrais -o (nurodyti išvesties failą) ir -e (nurodyti klaidų failą). 
 + 
 +Daugiau apie SLURM galimybes galite paskaityti [[https://slurm.schedmd.com/quickstart.html|Quick Start User Guide]].
  
  
  
en/hpc.txt · Last modified: 2024/02/21 12:50 by rolnas

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki