Hver er munurinn á CUDA kjarna og tensor kjarna? (Útskýrt) - Allur munurinn

 Hver er munurinn á CUDA kjarna og tensor kjarna? (Útskýrt) - Allur munurinn

Mary Davis

CUDA og Tensor kjarna eru vörur þróaðar af fyrirtæki sem heitir Nvidia. Svo hvað eru CUDA kjarna og Tensor kjarna? CUDA stendur fyrir Compute Unified Device Architecture. CUDA kjarnarnir eru til staðar í GPU, snjallsímum og jafnvel bílum þínum, eins og Nvidia verktaki segja svo.

CUDA kjarna eru samhliða tölvuvettvangur og forritunarviðmót (API) sem gerir hugbúnaði kleift að nota sérstakar gerðir grafískra vinnslueininga (GPU) fyrir almenna vinnslu.

Þar sem tensorkjarnar sem einnig voru þróaðar af Nvidia eru einnig notaðir í GPU. Tensor kjarna gera blönduð nákvæmni tölvuvinnslu kleift, aðlaga útreikninga á kraftmikinn hátt til að auka afköst en viðhalda nákvæmni.

Í einföldum orðum eru þessir kjarna mikilvægur hluti af GPU í tölvunni þinni til að gera ákveðna útreikninga. CUDA kjarna eru notaðir til að margfalda tvær tölur og bæta þeim við aðra tölu.

Þar sem Tensor kjarni er sá sami en með 4×4 fylki. Þessir útreikningar eru í grundvallaratriðum að gera grafík hraðar fyrir þig.

Hvað er CUDA?

Compute Unified Device Architecture í stuttu máli CUDA þróað af Nvidia, gefið út 23. júní 2007, er samhliða tölvuvettvangur og forritunarviðmót (API).

Það gerir hugbúnaði kleift að nota sérstakar gerðir af grafískum vinnslueiningum (GPU) fyrir almenna vinnslu, aðferð sem kallast almenn tölvuvinnslu áGPU (GPU).

CUDA er hugbúnaðarlag sem veitir beinan aðgang að sýndarleiðbeiningasetti GPU og samhliða reikniþáttum til að keyra tölvukjarna. CUDA var þróað til að vinna með mismunandi forritunarmál þar á meðal C, C++ og Fortran.

Hæfingin til að vinna með mismunandi forritunarmál auðveldar sérfræðingum í samhliða forritun að nýta GPU auðlindir ef við aðgreinum það frá fyrri API eins og Direct3D eða OpenGL, sem myndi krefjast þess að þú hafir fullkomnari færnigrunnur í grafískri forritun.

GPU með CUDA styður einnig forritunarramma, eins og OpenMP, OpenACC, OpenCL, og einnig HIP sem getur sett saman slíkan kóða í CUDA. Fyrsta nafnið sem notað var fyrir CUDA var skammstöfun fyrir Compute Unified Device Architecture. Hins vegar hætti Nvidia síðar almenna skammstöfuninni.

Öflugt Nvidia skjákort GTX 1080 Ti

Meira um CUDA

Sem sérhæfður tölvuörgjörvi uppfyllir grafíkvinnslueiningin (GPU) þarfir alvöru -tíma, tölvufrekt 3D grafík vinnuálag.

Um 2012 GPUs þróast og voru orðnar mjög samhliða fjölkjarna kerfi sem gera skilvirka gagnavinnslu fyrir stórar blokkir.

Þegar stórar gagnablokkir eru unnar samhliða er þessi hönnun betri en almennar miðvinnslueiningar (CPU) fyrir reiknirit, eins og:

  • dulkóðunarkássaaðgerðir
  • vélanám
  • sameindahreyfifræðihermir
  • eðlisfræðivélar
  • flokka reiknirit

Notkun CUDA arkitektúrsins núna og í framtíðinni

  • Hröðun á 3D grafík
  • Hröðun samskipta myndskráasniða
  • Hröðun dulkóðunar, afkóðun og þjöppun
  • Lífupplýsingafræði, t.d. NGS DNA raðgreining BarraCUDA
  • Dreifðir útreikningar, eins og að spá fyrir um innfædda sköpulag próteina
  • Læknisgreiningarlíkingar, til dæmis sýndarveruleiki byggður á tölvusneiðmynda- og segulómskoðun
  • Líkamleg uppgerð, einkum í vökvavirkni
  • Tauganetþjálfun í vélrænum vandamálum
  • Andlitsgreining
  • Dreifð tölvuverkefni, svo sem [email protected] og önnur verkefni sem nota BOINC
  • Mólecular dynamics
  • Námur dulritunargjaldmiðla
  • Structure from motion (SfM) hugbúnaður

Hvað er Tensor Core?

Sérhæfðir kjarna sem kallast Tensor Cores leyfa blandaðri nákvæmniþjálfun. Upphafleg kynslóð þessara sérhæfðu kjarna gerir þetta með sameinuðu margfalda-add algrími. Þetta gerir það mögulegt að margfalda og bæta tveimur 4 x 4 FP16 fylki við 4 x 4 FP16 eða FP32 fylki.

Endanlegur niðurstaða verður FP32 með aðeins örlítið tap á nákvæmni, blönduð nákvæmni tölvunarfræði er tilnefnd sem slík jafnvel þóinntaksfylkin geta verið FP16 með lítilli nákvæmni.

Í reynd flýtir þetta verulega fyrir útreikningum með lítil áhrif á endanlega virkni líkansins. Þessi getu hefur verið stækkuð með síðari örarkitektúrum í enn ónákvæmari tölvunúmeraframsetningu.

Fyrsta kynslóðin var kynnt með Volta örarkitektúr sem byrjaði á V100, fleiri nákvæmnissnið tölvunúmera voru gerð aðgengileg fyrir útreikninga með nýjum GPU örarkitektúr með hverri kynslóð sem leið.

Sjá einnig: Mismunandi gerðir af steikum (T-Bone, Ribeye, Tomahawk og Filet Mignon) - Allur munurinn

Við munum tala um hvernig getu og virkni Tensor Cores hefur breyst og batnað með hverri örarkitektúr kynslóð í kaflanum sem fylgir.

Myndræn mynd gerð af Titan V

Hvernig virka Tensor Cores?

Fyrsta kynslóð:

Volta GPU örarkitektúrinn var innifalinn í fyrstu kynslóð Tensor kjarna. Þessir kjarna gerðu það mögulegt að þjálfa með blandaðri nákvæmni og FP16 talnasniði.

Þetta gæti haft allt að 12x aukningu á teraFLOP afköstum fyrir ákveðnar GPU. 640 kjarna V100 í efsta flokki gefa allt að 5x aukningu á frammistöðuhraða miðað við Pascal GPUs fyrri kynslóðar.

Önnur kynslóð:

Með tilkomu Turing GPUs var önnur kynslóð Tensor Cores kynnt. Int8, Int4 og Int1 var bætt við listann yfir studdar Tensor Core nákvæmni, sem voruáður takmarkað við FP16.

Vegna blönduðra nákvæmnisþjálfunarferla jókst afköst GPU um allt að 32 sinnum samanborið við Pascal GPU.

Þriðja kynslóð:

Arkitektúrinn í Ampere GPU stækkar við fyrri framfarir Volta og Turing örarkitektúranna með því að bæta við stuðningi við FP64, TF32 og bfloat16 nákvæmni.

Djúpnámsþjálfun og ályktunaraðgerðum er hraðað miklu meira með þessum auka nákvæmni sniðum. Til dæmis virkar TF32 sniðið svipað og FP32 á sama tíma og það tryggir allt að 20x hraðaupphlaup án þess að breyta neinum kóða.

Þá, með örfáum línum af kóða, mun sjálfvirk blönduð nákvæmni innleiðing flýta fyrir þjálfun um 2x til viðbótar.

Þriðja kynslóð NVLink til að gera gífurlega hröð multi-GPU samskipti, þriðju kynslóð Ray Tracing kjarna og sérhæfing með dreifðri fylkisstærðfræði eru viðbótarþættir Ampere örarkitektúrsins .

Fjórða kynslóð:

Framtíðarútgáfa af Hopper örarkitektúr-undirstaða fjórðu kynslóð Tensor kjarna er fyrirhuguð. Fjórða kynslóð Tensor Cores í næsta H100.

sem er gert ráð fyrir að verði gefin út í mars 2022, mun geta séð um FP8 nákvæmnissnið og mun, samkvæmt NVIDIA, flýta fyrir risastórum tungumálalíkönum „um ótrúlega 30X yfir fyrri kynslóð.“

RTX skjákort ernotað til að gera grafík mjög hratt þar sem hún inniheldur tensor kjarna.

Munurinn á CUDA kjarna og tensor kjarna

Tensor kjarna er eins og er takmarkaður við Titan V og Tesla V100. 5120 CUDA kjarnarnir á báðum GPU hafa hámarksgetu upp á eina nákvæmni margfalda-söfnunaraðgerð (til dæmis í fp32: x += y * z) á hverja GPU klukku (t.d. Tesla V100 PCIe tíðni er 1,38Gz).

Hver tensor kjarni starfar á 4×4 litlum fylkjum fyrir lítil fylki. Á einni GPU klukku getur hver tensor kjarni lokið einni fylki margfalda-söfnunaraðgerð.

Það margfaldar tvö 4×4 FP16 fylki og bætir við 4×4 FP32 fylkinu sem leiðir til safns (það er líka fp32 4×4 fylki).

Vegna þess að inntaksfylkin eru fp16 á meðan margföldunarniðurstöðurnar og rafgeymirinn eru fp32, er reikniritið þekkt sem blönduð nákvæmni.

Sjá einnig: Hver er munurinn á fölskum og sönnum tvíburaloga? (Staðreyndir opinberaðar) - Allur munurinn

Rétt hugtak væri líklega bara „4×4 fylkiskjarni,“ en NVIDIA markaðsteymi valdi að nota „tensor kjarna“.

Tensor kjarna full útskýring í hnotskurn

GPU kort CUDA kjarna VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 Super 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 Super 1408 4GB
GeForce GTX 1650 1024 og896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB) 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1GB eða 2GB

GPU sem innihalda CUDA kjarna

Niðurstaða

  • CUDA og Tensor kjarna eru vörur, báðar þróaðar af fyrirtæki sem heitir Nvidia. CUDA stendur fyrir Compute Unified Device Architecture. Þessir CUDA kjarna eru til staðar í GPU, snjallsímum og jafnvel bílum þínum.
  • Þar sem tensorkjarnar, sem einnig voru þróaðar af Nvidia, eru einnig notaðir í GPU. Sérhæfðir kjarna sem kallast „tensor kjarna“ gera ráð fyrir þjálfun með blandaðri nákvæmni. Fyrsta kynslóð Tensor Cores gerði það mögulegt að þjálfa með blandaðri nákvæmni og FP16 talnasniði.
  • Þetta gæti haft allt að 12x aukningu á teraFLOP afköstum fyrir ákveðnar GPU. Int8, Int4 og Int1 var bætt við listann yfir studdar Tensor Core nákvæmni.
  • Vegna blandaðsnákvæmar þjálfunaraðferðir, var frammistaða GPU aukin um allt að 32 sinnum. Framtíðarútgáfa af Hopper örarkitektúr-undirstaða fjórðu kynslóð Tensor Cores er fyrirhuguð.

Aðrar greinar

    Mary Davis

    Mary Davis er rithöfundur, efnishöfundur og ákafur rannsakandi sem sérhæfir sig í samanburðargreiningu á ýmsum efnum. Með gráðu í blaðamennsku og yfir fimm ára reynslu á þessu sviði hefur Mary ástríðu fyrir því að koma óhlutdrægum og beinum upplýsingum til lesenda sinna. Ást hennar á ritstörfum hófst þegar hún var ung og hefur verið drifkrafturinn á bak við farsælan feril hennar í ritstörfum. Hæfni Maríu til að rannsaka og koma niðurstöðum á framfæri á auðskiljanlegu og grípandi sniði hefur gleðjað lesendur um allan heim. Þegar hún er ekki að skrifa hefur Mary gaman af því að ferðast, lesa og eyða tíma með fjölskyldu og vinum.