IT wiki

VU MIF STSC

User Tools

Site Tools


hpc

Čia yra sena dokumento versija!


Įrangos aprašymas

Paskirstytų skaičiavimų tinklas (PST) yra specialiai paruoštas kompiuterių tinklas, kuriame yra galimybė vykdyti programas, kurios galėtų efektyviai apsikeisti duomenimis.

VU MIF PST sudaro superkompiuteris iš telkinių (pirmas skaičius - faktiškai pasiekiamas kiekis):

Pavadinimas Mazgai CPU GPU RAM HDD Tinklas Pastabos
main 35/36 48 0 384GiB 0 1Gbit/s, 2x10Gbit/s, 4xEDR(100Gbit/s) infiniband CPU
gpu 3/3 40 8 512GB/32GB 7TB 2x10Gbit/s, 4xEDR(100Gbit/s) infiniband CPU NVIDIA DGX-1
power 2/2 32 4 1024GB/32GB 1.8TB 2x10Gbit/s, 4xEDR(100Gbit/s) infiniband IBM Power System AC922

Iš viso 40/41 mazgų, 1912 CPU cores su 17TB RAM, 32 GPU su 1TB RAM.

Toliau tekste procesorius = CPU = core - procesoriaus vienas branduolys (su visomis hypergijomis, jei jos yra įjungtos).

Programinė įranga

main ir gpu yra instaliuota Qlustar 11 operacinė sistema (OS) su Linux branduoliu. Ji yra sukurta Ubuntu 18.04 LTS pagrindu. power yra instaliuota Ubuntu 18.04 LTS.

Instaliuotų OS paketų sąrašą galite pasitikrinti su komanda dpkg -l (prisijungimo mazge hpc arba power mazguose).

Su komanda singularity galima pasinaudoti jau paruoštomis konteinerių failų kopijomis kataloguose /apps/local/hpc, /apps/local/nvidia, /apps/local/intel, /apps/local/lang arba pačiam atsisiųsti iš singularity ir docker internetinių katalogų. Pasinaudojus MIF cloud paslauga galima susikurti ir savo singularity konteinerius.

Su singularity galite paruošti savo konteinerį, pvz:

$ singularity build --sandbox /tmp/python docker://python:3.8
$ singularity exec -w /tmp/python pip install paketas
$ singularity build python.sif /tmp/python
$ rm -rf /tmp/python

Analogiškai galima pasinaudoti R, Julia ar kitais konteineriais, kuriuose paketams instaliuoti nereikia naudotojo root teisių.

Jeigu reikia papildyti singularity kontainerį OS paketais, tam reikia root/superuser teisių. Su fakeroot jas simuliuojame, o jam reikalingą biblioteką libfakeroot-sysv.so kopijuojame į konteinerį, pvz:

$ singularity build --sandbox /tmp/python docker://ubuntu:18.04
$ cp /libfakeroot-sysv.so /tmp/python/
$ fakeroot -l /libfakeroot-sysv.so singularity exec -w /tmp/python apt-get update
$ fakeroot -l /libfakeroot-sysv.so singularity exec -w /tmp/python apt-get install python3.8 ...
$ fakeroot -l /libfakeroot-sysv.so singularity exec -w /tmp/python apt-get clean
$ rm -rf /tmp/python/libfakeroot-sysv.so /tmp/python/var/lib/apt/lists (galima ir daugiau išvalyti, ko nereikia)
$ singularity build python.sif /tmp/python
$ rm -rf /tmp/python

Kataloge /apps/local/bigdata yra paruošti scenarijai pasileisti savo hadoop užduotis pasinaudojant Magpie rinkiniu.

Su JupyterHub galite interneto naršyklės pagalba vykdyti skaičiavimus su python komandų eilute ir pasinaudoti JupyterLab aplinka. Jeigu savo namų kataloge instaliuosite savo JupyterLab aplinką, tai reikia instaliuoti papildomai batchspawner paketą - tada jums startuos jūsų aplinką, pvz:

$ python3.7 -m pip install --upgrade pip setuptools wheel
$ python3.7 -m pip install --ignore-installed batchspawner jupyterlab

Taip pat jūs galite pasinaudoti savo pasidarytu konteineriu per JupyterHub. Tame konteineryje reikia instaliuoti batchswapner ir jupyterlab paketus bei sukurti script'ą ~/.local/bin/batchspawner-singleuser su vykdymo teisėmis (chmod +x ~/.local/bin/batchspawner-singleuser)

#!/bin/sh
exec singularity exec --nv myjupyterlab.sif batchspawner-singleuser "$@"

Registracija

  • VU MIF tinklo naudotojams - PST galima naudotis be papildomos registracijos, jei užtenka suteiktų resursų (mėnesio limitas - 100 CPU-h ir 6 GPU-h). Išnaudojus šį limitą, galima prašyti suteikti jų daugiau užpildant ITAPC paslaugų užsakymo formą.
  • Kitiems naudotojams (ne VU bendruomenės nariams) - paslaugoms gauti turite užpildyti ITAPC paslaugų užsakymo formą. Patvirtinus paraišką, turite atvykti adresu VU MIF Didlaukio g. 47, 302/304 kab. darbo metu, prisijungimo duomenims gauti. Dėl tikslaus laiko būtina susitarti tel. 8 5219 5005 arba 8 5219 5006. Gavus duomenis Waldur portale turite susikurti savo paskyrą. Daugiau informacijos skaitykite čia.

Prisijungimas

Norint prisijungti prie PST reikia naudoti SSH programas (ssh, putty, winscp, mobaxterm) ir Kerberos arba SSH raktų autentikaciją.

Jeigu naudojate Kerberos:

  • Prisijunkite į Linux aplinką VU MIF klasėje arba viešame terminale su savo VU MIF naudotojo vardu ir slaptažodžiu
  • arba su ssh ar putty programa prisijunkite į uosis.mif.vu.lt su savo VU MIF naudotojo vardu ir slaptažodžiu.
  • Su komanda klist patikrinkite, ar turite galiojantį Kerberos raktą (ticket). Jei rakto nėra arba jo galiojimo laikas pasibaigęs, tai reikia įvykdyti komandą kinit.
  • Junkitės į mazgą hpc su komanda ssh hpc (turi nereikalauti slaptažodžio).
  • Pirmą kartą prisijungus turi praeiti 5min, kad galėtumėte naudotis PST.

Jeigu naudojate SSH raktus (pvz: jei norite kopijuoti didelius failus):

  • Jei neturite SSH raktų, instrukciją kaip juos susikurti Windows aplinkoje rasite čia
  • Prieš naudodami šį būdą, reikia bent kartą prisijungti su Kerberos ir PST failų sistemoje susikurti ~/.ssh katalogą ir į jį įdėti savo ssh viešąjį raktą (OpenSSH formatu) į failą ~/.ssh/authorized_keys.
  • Prisijunkite su ssh, sftp, scp, putty, winscp ar kitomis ssh protokolą palaikančiomis programomis į hpc.mif.vu.lt su savo ssh privačiu raktu nurodydami savo VU MIF naudotojo vardą (turi nereikalauti prisijungimo slaptažodžio, bet gali reikalauti jūsų ssh privataus rakto slaptažodžio).

Pirmą kartą prisijungus jūs negalėsite paleisti SLURM užduočių per pirmąsias 5 minutes. Po to jums bus automatiškai sukurtas SLURM naudotojas ir priskirti resursų limitai.

Bendra failų sistema (Lustre)

VU MIF PST bendra failų sistema yra pasiekiama /scratch/lustre kataloge.

Joje kiekvienam PST naudotojui yra sukuriamas /scratch/lustre/home/username katalogas, kur username - PST naudotojo vardas.

Šios failų sistemos failai yra vienodai pasiekiami visuose skaičiavimo mazguose ir mazge hpc.

Prašome šiuos katalogus naudoti tik pagal paskirtį ir atlikus skaičiavimus - išsivalyti.

PST eilės (partition)

Eilė (partition) Laiko limitas RAM Pastabos
main 7d 7000MB CPU telkinys
gpu 48h 12000MB GPU telkinys
power 48h 2000MB IBM Power9 telkinys

Visose eilėse užduotims laiko limitas yra 2h, jei jis nebuvo nurodytas, o lentelėje yra pateiktas maksimalus leidžiamas laiko limitas.

RAM stulpelyje yra pateikiamas kiekvienam rezervuotam CPU branduoliui skiriamas RAM kiekis.

Paketinis užduočių vykdymas (SLURM)

Norint pasinaudoti PST skaičiavimo resursais, reikia formuoti užduočių scenarijus (sh arba csh).

Pavyzdys:

mpi-test-job.sh
#!/bin/bash
#SBATCH -p main
#SBATCH -n4
module load openmpi
mpicc -o mpi-test mpi-test.c
mpirun mpi-test

Pateikus paraišką ITAPC ir gavus teigimą sprendimą, reikia susikurti naudotoją https://hpc.mif.vu.lt/. Sukurtas naudotojas bus įtrauktas į atitinkamą projektą, kuris turės tam tikrą kiekį resursų. Norint naudoti projekto resursus atliekant skaičiavimus reikia nurodyti savo alokacijos numerį. Žemiau pateiktas pavyzdys su nustatytu alokacijos parametru „alloc_xxxx_projektas“ (taikomas ne VU MIF naudotojams, VU MIF naudotojai – account parametro nurodyti neturi).

mpi-test-job.sh
#!/bin/bash
#SBATCH --account=alloc_xxxx_projektas
#SBATCH -p main
#SBATCH -n4
#SBATCH --time=minutes
module load openmpi
mpicc -o mpi-test mpi-test.c
mpirun mpi-test

Jame kaip specialūs komentarai yra nurodymai užduočių vykdytojui.

-p short - į kokią eilę siųsti (main, gpu, power).

-n4 - kiek procesorių rezervuoti (PASTABA: nustačius naudotinų branduolių skaičių x, tačiau realiai programiškai išnaudojant mažiau, apskaitoje vis tiek bus skaičiuojami visi x „užprašyti“ branduoliai, todėl rekomenduojame apsiskaičiuoti iš anksto).

Užduoties pradinis einamasis katalogas yra dabartinis katalogas (pwd) prisijungimo mazge iš kur paleidžiama užduotis, nebent parametru -D pakeistas į kitą. Pradiniam einamajam katalogui naudokite PST bendros failų sistemos katalogus /scratch/lustre, nes jis turi egzistuoti skaičiavimo mazge ir ten yra kuriamas užduoties išvesties failas slurm-JOBID.out, nebent nukreiptas kitur parametrais -o arba -i (jiems irgi patariama naudoti bendrą failų sistemą).

Suformuotą scenarijų siunčiame su komanda sbatch

$ sbatch mpi-test-job

kuri gražina pateiktos užduoties numerį JOBID.

Laukiančios arba vykdomos užduoties būseną galima sužinoti su komanda squeue

$ squeue -j JOBID

Su komanda scancel galima nutraukti užduoties vykdymą arba išimti ją iš eilės

$ scancel JOBID

Jeigu neatsimenate savo užduočių JOBID, tai galite pasižiūrėti su komanda squeue

$ squeue

Užbaigtų užduočių squeue jau neberodo.

Jeigu nurodytas procesorių kiekis nėra pasiekiamas, tai jūsų užduotis yra įterpiama į eilę. Joje ji bus kol atsilaisvins pakankamas kiekis procesorių arba kol jūs ją pašalinsite su scancel.

Vykdomos užduoties išvestis (output) yra įrašoma į failą slurm-JOBID.out. Jei nenurodyta kitaip, tai ir klaidų (error) išvestis yra įrašoma į tą patį failą. Failų vardus galima pakeisti su komandos sbatch parametrais -o (nurodyti išvesties failą) ir -e (nurodyti klaidų failą).

Daugiau apie SLURM galimybes galite paskaityti Quick Start User Guide.

Interaktyvios užduotys (SLURM)

Interaktyvias užduotis galima vykdyti su komanda srun:

$ srun --pty $SHELL

Įvykdę aukščiau pateiktą komandą prisijungsite prie SLURM paskirtos skaičiavimo mazgo aplinkos ir galėsite tiesiogiai vykdyti ir derinti programas jame.

Įvykdę komandas atsijunkite nuo skaičiavimo mazgo su komanda

$ exit

Jeigu norima vykdyti grafines programas, tai reikia jungtis su ssh -X į uosis.mif.vu.lt ir hpc:

$ ssh -X uosis.mif.vu.lt
$ ssh -X hpc
$ srun --pty $SHELL

power telkinyje interaktyvias užduotis galima vykdyti su

$ srun -p power --mpi=none --pty $SHELL

GPU užduotys (SLURM)

Norint pasinaudoti GPU, reikia papildomai nurodyti

--gres gpu:N

kur N - norimas GPU kiekis.

Su nvidia-smi užduotyje galite pasitikrinti kiek GPU buvo paskirta.

Pavyzdys interaktyvios užduoties su 1 GPU:

$ srun -p gpu --gres gpu --pty $SHELL

Įvadas į OpenMPI

Ubuntu 18.04 LTS yra 2.1.1 versijos OpenMPI paketai. Norint pasinaudoti naujesne 4.0.1 versija reikia naudoti

module load openmpi/4.0

prieš vykdant MPI komandas.

MPI programų kompiliavimas

Paprastos MPI programos pavyzdys yra kataloge /scratch/lustre/test/openmpi. mpicc (mpiCC, mpif77, mpif90, mpifort) yra apvalkalai C (C++, F77, F90, Fortran) kompiliatoriams, kurie automatiškai įtraukia į komandų eilutę reikiamus MPI intarpų (include) ir bibliotekų failus.

$ mpicc -o foo foo.c
$ mpif77 -o foo foo.f
$ mpif90 -o foo foo.f

MPI programų vykdymas

MPI programos startuojamos su mpirun arba mpiexec programa. Daugiau apie jas galima sužinoti su komanda man mpirun arba man mpiexec.

Paprasta (SPMD) programa gali būti startuojama su tokia mpirun komandų eilute.

$ mpirun foo

Tai naudos visus paskirtus procesorius, pagal tai, kiek jų buvo užsakyta. Jeigu norima pasinaudoti mažiau, tai mpirun galima nurodyti parametrą -np kiekis. Nepageidaujama ilgesniam laikui naudoti mažiau, nei rezervuota, nes neišnaudoti CPU lieka laisvi. Didesnį kiekį, nei rezervuotą, yra griežtai draudžiama naudoti, nes tai gali turėti įtakos kitų užduočių vykdymui.

Daugiau apie instaliuotą OpenMPI yra OpenMPI puslapyje.

Užduočių efektyvumas

  • Prašome išnaudoti ne mažiau 50% užsakyto CPU kiekio.
  • Naudoti daugiau CPU, nei užsakyta, nepadidins efektyvumo, nes jūsų užduotis galės naudoti tik tiek CPU, kiek buvo užsakyta.
  • Jeigu naudosite parametrą –mem=X, tai užduotis gali rezervuoti daugiau CPUs proporcingai norimos atminties kiekiui. Pvz: užsakius –mem=14000 eilėje main, bus užsakyti ne mažiau 2 CPUs, jei kiti parametrai nenurodo daugiau. Jeigu jūsų užduotis naudos mažiau, tai bus neefektyvus resursų naudojimas, be to tai gali veikti lėčiau, nes gali būti naudojama kita, nei vykdančio, procesoriaus atmintis.

Resursų limitai

Jeigu jūsų užduotys nestartuoja su priežastimi AssocGrpCPUMinutesLimit arba AssocGrpGRESMinutes, tai pasitikrinkite ar užduotims dar liko neišnaudotų CPU/GPU resursų iš (mėnesio) limito.

Peržiūrėti kiek išnaudota resursų

sreport -T cpu,mem,gres/gpu cluster AccountUtilizationByUser Start=0101 End=0131 User=USERNAME

kur USERNAME jūsų MIF naudotojo vardas, o Start ir End nurodo einamojo mėnesio pradžios ir pabaigos datas. Jas galima nurodyti ir kaip $(date +%m01) ir $(date +%m31), kas nurodo einamojo mėnesio pirmą ir paskutines dienas.

Atkreipkite dėmesį, kad naudojimas pateikiamas minutėmis, o į valandas konvertuoti reikia dalinant iš 60.

Kitas būdas pažiūrėti limitus ir jų išnaudojimą

sshare -l -A USERNAME_mif -p -o GrpTRESRaw,GrpTRESMins,TRESRunMins

kur USERNAME MIF naudotojo vardas. Arba parametre -A nurodyti tą sąskaitą (account), kurio naudojimą norima pažiūrėti. Duomenys pateikiami minutėmis. GrpTRESRaw - kiek išnaudota. GrpTRESMins - koks yra limitas. TRESRunMins - likę resursai dar vis vykdomų užduočių.

Mokymų medžiaga

Toliau pateikiama informacija apie mokymus, kurie vyko 2021m gruodžio mėn.

1 mokymų dalis

  • Trumpai apie HPC, kas tai yra, kam jo reikia
  • Kokie HPC būna, koks yra VU ir kokia MIF dalis
  • Kaip prisijungti MIF darbuotojams / studentams prie HPC
  • SSH rakto kūrimas ir naudojimas Windows aplinkoje
  • WinScp naudojimas Windows aplinkoje

2 mokymų dalis

  • Slurm komandos darbams paleisti/stabdyti ar progresui peržiūrėti.
  • Sbatch failas ir jo tipiniai parametrai CPU ir GPU particijoms
  • Darbai interaktyviu režimu ir darbai liekantys veikti po atsijungimo (Sbatch)
  • Python/R/julia ar kitų kalbų paketų diegimas
  • Singularity konteineriai: atsisiuntimas ir/arba esamų modifikavimas
  • Darbas su MPI
  • Rezultatų išvedimas ir parsisiuntimas į naudotojo kompiuterį
  • Papildomų resursų užsakymai (Waldur)

3 mokymų dalis

  • GPU skaičiavimai
  • CUDA programinio kodo spartinimui naudojant GPU
  • Programavimas Python Jupyter-notebooks su GPU
  • Simuliacinių skaičiavimų pavyzdys
  • Mašininio mokymo projektas (duomenys/modelis jų įkėlimas/atsisiuntimas)
  • Mašininio mokymo pavyzdys naudojant vieną GPU
  • Mašininio mokymo pavyzdys naudojant kelis GPU

Nuorodos

hpc.1653396508.txt.gz · Keista: 2022/05/24 12:48 vartotojo rolnas

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki