Zein da CUDA nukleoen eta tentsore nukleoen arteko aldea? (Azalduta) - Desberdintasun guztiak

 Zein da CUDA nukleoen eta tentsore nukleoen arteko aldea? (Azalduta) - Desberdintasun guztiak

Mary Davis

CUDA eta Tensor nukleoak Nvidia izeneko konpainiak garatutako produktuak dira. Beraz, zer dira CUDA nukleoak eta Tensor nukleoak? CUDA-k Compute Unified Device Architecture esan nahi du. CUDA nukleoak zure GPUetan, telefonoetan eta baita zure autoetan ere, Nvidiako garatzaileek diotenez.

CUDA nukleoak konputazio-plataforma paralelo bat eta aplikazioen programazio-interfazea (API) dira, softwareari erabilera orokorreko prozesatzeko grafikoen prozesatzeko unitate (GPU) mota jakin batzuk erabiltzeko aukera ematen diotenak.

Nvidiak ere garatu zituen tentsore nukleoak GPUetan ere erabiltzen dira. Tensor Core-ek doitasun mistoko konputazioa ahalbidetzen dute, kalkuluak dinamikoki egokituz, errendimendua handitzeko, zehaztasuna mantenduz.

Hitz errazetan, nukleo hauek zure ordenagailuko GPUen zati garrantzitsu bat dira kalkulu batzuk egiteko. CUDA nukleoak bi zenbaki biderkatzeko eta beste zenbaki bati gehitzeko erabiltzen dira.

Tentsorearen nukleoa berdina den arren, 4×4 matrizeekin. Kalkulu hauek, funtsean, grafikoak azkarrago errendatzen dituzte zuretzat.

Zer da CUDA?

Compute Unified Device Architecture laburbilduz Nvidiak garatutako CUDA, 2007ko ekainaren 23an kaleratua, konputazio plataforma paraleloa eta aplikazioak programatzeko interfazea (API) da.

Hori. softwareari aukera ematen dio programari grafikoak prozesatzeko unitate (GPU) mota zehatzak erabiltzeko erabilera orokorreko prozesatzeko, helburu orokorreko konputazio gisa ezagutzen den metodoa.GPUak (GPU).

CUDA software-geruza bat da, GPUaren instrukzio-multzo birtualerako eta konputazio-elementu paraleloetarako sarbide zuzena eskaintzen duena konputazio-kernelak exekutatzeko. CUDA programazio-lengoaia ezberdinekin lan egiteko garatu zen, besteak beste, C, C++ eta Fortran.

Programazio-lengoaia ezberdinekin lan egiteko gaitasunak errazago egiten du programazio paraleloko espezialistek GPU baliabideak erabiltzea, baldin eta aurreko APIetatik bereizten baditugu, hala nola, Direct3D edo OpenGL, eta horrek aurreratuagoa izatea eskatuko luke. trebetasun-oinarria programazio grafikoan.

CUDA duen GPU-k programazio-esparruak ere onartzen ditu, hala nola, OpenMP, OpenACC, OpenCL, eta baita HIP ere, CUDAn kode hori konpilatu dezakeena. CUDArako erabilitako lehen izena Compute Unified Device Architecture akronimoa zen. Dena den, Nvidia-k gerora utzi zuen erabili ohi den akronimoa.

Nvidia txartel grafiko indartsua GTX 1080 Ti

CUDAri buruz gehiago

Ordenagailu-prozesadore espezializatua denez, grafikoak prozesatzeko unitateak (GPU) benetako beharrak asetzen ditu. -denbora, konputazio intentsiboa duten 3D grafikoen lan-kargak.

2012. urtean GPU inguruk eboluzionatu zuten eta oso paralelo bihurtu ziren nukleo anitzeko sistemak, bloke handietarako datuen prozesamendu eraginkorra ahalbidetzen dutenak.

Datu-bloke handiak paraleloan prozesatzen direnean, diseinu hau helburu orokorreko prozesatzeko unitate zentralak (CPU) baino handiagoa da algoritmoetarako, hala nola:

  • hash kriptografikoa.funtzioak
  • makina ikaskuntza
  • dinamika molekularraren simulazioak
  • fisika motorrak
  • ordenatzeko algoritmoak

CUDA Arkitekturaren erabilerak orain eta Etorkizunean

  • 3D grafikoen errendatze bizkortua
  • Bideo-fitxategien formatuen arteko konbertsio bizkortua
  • Enkriptatzea, deszifratzea eta konpresioa azeleratua
  • Bioinformatika, adibidez, NGS DNAren sekuentziazioa BarraCUDA
  • Kalkulu banatuak, hala nola proteinen konformazio natiboa aurreikustea
  • Analisi medikoen simulazioak, adibidez, CT eta MRI eskaneatu irudietan oinarritutako errealitate birtuala
  • Simulazio fisikoak, batez ere fluidoen dinamikan
  • Sare neuronalaren prestakuntza makina ikasketa-arazoetan
  • Aurpegien ezagupena
  • Informatika-proiektu banatuak, hala nola [email protected] eta beste proiektu batzuk erabiliz. BOINC
  • Dinamika molekularra
  • Kripto-moneta meatzaritza
  • Structure from motion (SfM) softwarea

Zer da Tensor Core bat?

Tentsor Cores izeneko nukleo espezializatuek doitasun mistoko entrenamendua ahalbidetzen dute. Nukleo espezializatu hauen hasierako belaunaldiak biderketa-gehiketa algoritmo fusionatu batekin egiten du. Honek 4 x 4 FP16 matrize bi 4 x 4 FP16 edo FP32 matrize bati biderkatzea eta gehitzea ahalbidetzen du.

Azken emaitza FP32 izango da zehaztasun galera apur batekin, zehaztasun mistoko konputazioa horrela izendatzen da, nahiz etasarrerako matrizeak doitasun baxuko FP16 izan daitezke.

Praktikan, horrek nabarmen bizkortzen ditu kalkuluak, ereduaren azken eraginkortasunean eragin gutxirekin. Ahalmen hori geroko mikroarkitekturak are zehatzagoak diren ordenagailu-zenbakien irudikapenetara zabaldu dute.

Lehen belaunaldia Volta mikroarkitekturarekin sartu zen V100etik hasita, ordenagailu-zenbakien zehaztasun formatu gehiago erabilgarri jarri ziren konputaziorako GPU mikroarkitektura berriekin belaunaldi bakoitzarekin.

Tensor Cores-en ahalmena eta funtzionalitatea nola aldatu eta hobetu diren mikroarkitekturaren belaunaldi bakoitzarekin hitz egingo dugu hurrengo atalean.

Titan V batek egindako grafikoki errendatutako irudia

Nola funtzionatzen dute tentsore-nukleoak?

Lehen belaunaldia:

Volta GPU mikroarkitektura Tensor Coreen lehen belaunaldiarekin sartu zen. Nukleo hauek zehaztasun mistoarekin eta FP16 zenbaki formatuan entrenatzea ahalbidetu zuten.

Horrek teraFLOP-ren errendimendua 12 aldiz handitu dezake GPU jakin batzuentzat. Goi-mailako V100-ren 640 nukleoek errendimendu-abiadura 5 aldiz handitzen dute aurreko belaunaldiko Pascal GPUekiko.

Bigarren belaunaldia:

Turing GPUak sartzearekin batera, Tensor Coreen bigarren belaunaldia sartu zen. Int8, Int4 eta Int1 onartutako Tensor Core zehaztasunen zerrendara gehitu ziren.lehenago FP16ra mugatuta.

Ikusi ere: Zein da Haven eta Havnt-en arteko aldea? (Aurkitu) - Desberdintasun guztiak

Doitasun mistoko entrenamendu-prozedurak direla eta, GPUaren errendimenduaren errendimendua 32 aldiz handitu zen Pascal GPUekin alderatuta.

Hirugarren belaunaldia:

Ampere GPU bateko arkitekturak Volta eta Turing mikroarkitekturen aurreko aurrerapenetan zabaltzen du FP64, TF32 eta bfloat16 zehaztasunetarako laguntza gehituz.

Ikaskuntza sakoneko prestakuntza eta inferentzia jarduerak askoz gehiago bizkortzen dira doitasun gehigarriko formatu hauek. Esate baterako, TF32 formatuak FP32-ren antzera funtzionatzen du, eta 20x-ko abiadura ere bermatzen du inolako koderik aldatu gabe.

Ondoren, kode lerro gutxi batzuekin, doitasun mistoaren ezarpen automatikoak bi aldiz gehiago bizkortuko du entrenamendua.

Hirugarren belaunaldiko NVLink, GPU anitzeko elkarrekintza izugarri azkarrak ahalbidetzeko, hirugarren belaunaldiko Ray Tracing nukleoak eta matrize urriko matematikako espezializazioa Ampere mikroarkitekturaren alderdi gehigarriak dira .

Laugarren belaunaldia:

Hopper mikroarkitekturan oinarritutako Tensor Cores laugarren belaunaldiaren etorkizuneko bertsioa aurreikusita dago. 2022ko martxoan kaleratuko den hurrengo H100.

laugarren belaunaldiko Tensor Cores-ek FP8 doitasun formatuak kudeatzeko gai izango dira eta, NVIDIAren arabera, hizkuntza-eredu erraldoiak bizkortuko ditu "30X harrigarri batean". aurreko belaunaldiaren aldean.”

RTX txartel grafikoa dagrafikoak oso azkar errendatzeko erabiltzen da, tentsore nukleoak dituelako.

CUDA nukleoen eta tentsore nukleoen arteko aldea

Tentsore nukleoak Titan V eta Tesla V100-ra mugatuta daude gaur egun. Bi GPUetako 5120 CUDA nukleoek doitasuneko biderketa-metaketa eragiketa bakarreko gehienezko ahalmena dute (adibidez, fp32-n: x += y * z) GPU erloju bakoitzeko (adibidez, Tesla V100 PCIe maiztasuna 1,38 Gz da).

Tentsore-nukleo bakoitzak 4×4 matrize txikietan funtzionatzen du matrize txikietarako. GPU erloju bakoitzeko, tentsore-nukleo bakoitzak matrize bat biderkatzeko-metatzeko eragiketa osatu dezake.

Bi 4×4 FP16 matrize biderkatzen ditu eta metagailua sortzen duen 4×4 FP32 matrizea gehitzen du (hori ere fp32 4×4 matrizea da).

Ikusi ere: Zein da Big Boss eta Solid Snake-ren arteko aldea? (Ezagutua) - Desberdintasun guztiak

Sarrera-matrizeak fp16 direnez, biderketa-emaitzak eta metagailua fp32 diren bitartean, doitasun mistoa deritzo algoritmoari.

Termino zuzena "4 × 4 matrize nukleoak" besterik ez litzateke izango, baina NVIDIA marketin taldeak "tentsore nukleoak" erabiltzea aukeratu zuen.

Tentsore nukleoen azalpen osoa laburbilduz

GPU txartela CUDA nukleoak VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 Super 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 Super 1408 4GB
GeForce GTX 1650 1024 eta896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB) 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1 GB edo 2 GB

CUDA nukleoak dituzten GPUak

Ondorioa

  • CUDA eta Tensor nukleoak produktuak dira, biak Nvidia izeneko konpainiak garatuak. CUDA-k Compute Unified Device Architecture esan nahi du. CUDA nukleo hauek zure GPUetan, telefonoetan eta baita zure autoetan ere.
  • Nvidiak ere garatu zituen tentsore nukleoak GPUetan ere erabiltzen dira. "Tensore nukleoak" izeneko nukleo espezializatuek doitasun mistoko entrenamendua ahalbidetzen dute. Tensor Coreen lehen belaunaldiak zehaztasun mistoarekin eta FP16 zenbaki formatuan entrenatzea ahalbidetu zuen.
  • Horrek teraFLOP-ren errendimendua 12 aldiz handitu dezake GPU jakin batzuentzat. Int8, Int4 eta Int1 onartutako Tensor Core zehaztasunen zerrendara gehitu ziren.
  • Mistoa dela etazehaztasun prestakuntza prozedurak, GPUren errendimendua 32 aldiz handitu zen. Hopper mikroarkitekturan oinarritutako Tensor Cores-en laugarren belaunaldiaren etorkizuneko bertsioa aurreikusi da.

Beste artikuluak

    Mary Davis

    Mary Davis idazlea, edukien sortzailea eta ikertzaile amorratua da hainbat gairi buruzko konparazio-analisian espezializatua. Kazetaritzan lizentziatua eta alorrean bost urte baino gehiagoko esperientzia duen, Mary-k bere irakurleei informazio zuzena eta zuzena emateko grina du. Idazteko zaletasuna gaztea zenean hasi zen eta idazlearen ibilbide arrakastatsuaren bultzatzailea izan da. Mary-k aurkikuntzak ulerterraz eta erakargarri batean ikertzeko eta aurkezteko duen gaitasunak mundu osoko irakurleengana maitemindu du. Idazten ez duenean, Maryri gustatzen zaio bidaiatzea, irakurtzea eta familia eta lagunekin denbora pasatzea.