Beth Yw'r Gwahaniaeth rhwng CUDA Cores a Tensor Cores? (Eglurwyd) – Yr Holl Wahaniaethau

01-08-202301-08-2023 Mary Davis

Tabl cynnwys

Mae creiddiau CUDA a Tensor yn gynhyrchion a ddatblygwyd gan gwmni o'r enw Nvidia. Felly beth yw creiddiau CUDA a creiddiau Tensor? Ystyr CUDA yw Pensaernïaeth Dyfais Unedig Gyfrifiadurol. Mae creiddiau CUDA yn bresennol yn eich GPUs, ffonau smart, a hyd yn oed eich ceir, fel y dywed datblygwyr Nvidia.

Mae creiddiau CUDA yn blatfform cyfrifiadura cyfochrog a rhyngwyneb rhaglennu cymhwysiad (API) sy'n galluogi meddalwedd i ddefnyddio mathau penodol o unedau prosesu graffeg (GPUs) ar gyfer prosesu pwrpas cyffredinol.

Tra bod creiddiau tensor a ddatblygwyd hefyd gan Nvidia, hefyd yn cael eu defnyddio mewn GPUs. Mae Tensor Cores yn galluogi cyfrifiadura manwl-gywir, gan addasu cyfrifiadau'n ddeinamig i gynyddu trwybwn tra'n cynnal cywirdeb.

Mewn geiriau syml, mae'r creiddiau hyn yn rhan bwysig o'r GPUs yn eich cyfrifiadur i wneud rhai cyfrifiadau. Defnyddir creiddiau CUDA i luosi dau rif a'u hychwanegu at rif arall.

Tra bod craidd Tensor yr un peth ond gyda matricsau 4×4. Yn y bôn, mae'r cyfrifiadau hyn yn gwneud graffeg yn gyflymach i chi.

Beth Yw CUDA?

Mae Pensaernïaeth Dyfais Unedig Cyfrifiadurol yn fyr CUDA a ddatblygwyd gan Nvidia, a ryddhawyd ar 23 Mehefin, 2007, yn blatfform cyfrifiadura cyfochrog a rhyngwyneb rhaglennu cymhwysiad (API).

Hynny galluogi meddalwedd i ddefnyddio mathau penodol o unedau prosesu graffeg (GPUs) ar gyfer prosesu cyffredinol, dull a elwir yn gyfrifiadura pwrpas cyffredinol arGPUs (GPU).

Mae CUDA yn haen feddalwedd sy'n darparu mynediad uniongyrchol i set gyfarwyddiadau rhithwir y GPU ac elfennau cyfrifiannol cyfochrog ar gyfer gweithredu cnewyllyn cyfrifiadurol. Datblygwyd CUDA i weithio gyda gwahanol ieithoedd rhaglennu gan gynnwys C, C ++, a Fortran.

Mae'r gallu i weithio gyda gwahanol ieithoedd rhaglennu yn ei gwneud hi'n haws i arbenigwyr mewn rhaglennu cyfochrog ddefnyddio adnoddau GPU os ydym yn ei wahaniaethu oddi wrth APIs blaenorol fel Direct3D neu OpenGL, a fyddai'n gofyn bod gennych chi raglen uwch sylfaen sgiliau mewn rhaglennu graffigol.

GPU gyda CUDA hefyd yn cefnogi fframweithiau rhaglennu, megis OpenMP, OpenACC, OpenCL, a hefyd HIP sy'n gallu llunio cod o'r fath i CUDA. Yr enw cyntaf a ddefnyddiwyd ar gyfer CUDA oedd acronym ar gyfer Pensaernïaeth Dyfeisiau Unedig Cyfrifiadurol. Fodd bynnag, yn ddiweddarach gollyngodd Nvidia yr acronym a ddefnyddir yn gyffredin.

Cerdyn Graffeg Nvidia pwerus GTX 1080 Ti

Mwy Am CUDA

Fel prosesydd cyfrifiadurol arbenigol, mae'r uned prosesu graffeg (GPU) yn diwallu anghenion go iawn -amser, llwythi gwaith graffeg 3D cyfrifiadurol-ddwys.

Tua 2012 esblygodd GPUs ac roeddent wedi dod yn systemau aml-graidd cyfochrog iawn gan alluogi prosesu data effeithiol ar gyfer blociau mawr.

Wrth brosesu blociau enfawr o ddata ochr yn ochr, mae'r dyluniad hwn yn well nag unedau prosesu canolog cyffredinol (CPUs) ar gyfer algorithmau, megis:

Gweld hefyd: Ydy'r Gwahaniaeth Rhwng Uchder O 5'4 A 5'6 Yn Fawr? (Darganfod) – Yr Holl Wahaniaethau

stwnsh cryptograffegswyddogaethau
dysgu peiriant
efelychiadau deinameg moleciwlaidd
peiriannau ffiseg
algorithmau didoli

Defnyddiau o Bensaernïaeth CUDA Nawr a yn y Dyfodol

Rendro carlam o graffeg 3D
Rhyngnewid cyflymach o fformatau ffeil fideo
Amgryptio, dadgryptio a chywasgu cyflymach
Biowybodeg, e.e., dilyniannu DNA NGS BarraCUDA
Cyfrifiadau wedi'u dosbarthu, megis rhagweld cydffurfiad brodorol proteinau
Efelychiadau dadansoddi meddygol, er enghraifft, rhith-realiti yn seiliedig ar ddelweddau sgan CT ac MRI
Efelychiadau corfforol, yn enwedig mewn dynameg hylif
Hyfforddiant rhwydwaith nerfol mewn problemau dysgu peirianyddol
Adnabod wyneb
Prosiectau cyfrifiadura gwasgaredig, megis [e-bost warchodedig] a phrosiectau eraill sy'n defnyddio BOINC
Deinameg moleciwlaidd
Cronfa arian cyfred digidol mwyngloddio
Adeiledd o feddalwedd mudiant (SfM)

Beth Yw Craidd Tensor?

Mae creiddiau arbenigol o'r enw Tensor Cores yn caniatáu hyfforddiant manwl-cymysg. Mae cenhedlaeth gychwynnol y creiddiau arbenigol hyn yn gwneud hyn gydag algorithm lluosi-ychwanegu cyfun. Mae hyn yn ei gwneud hi'n bosibl lluosi ac ychwanegu dau fatrics 4 x 4 FP16 at fatrics 4 x 4 FP16 neu FP32.

Y canlyniad yn y pen draw fydd FP32 gyda dim ond ychydig o golled drachywiredd, mae cyfrifiadura manwl-gywir wedi'i ddynodi felly er bodgall y matricsau mewnbwn fod yn fanwl gywir FP16.

Yn ymarferol, mae hyn yn cyflymu’r cyfrifiadau’n sylweddol heb fawr o ddylanwad ar effeithiolrwydd terfynol y model. Mae'r gallu hwn wedi'i ehangu gan ficrosaernïaeth diweddarach i gynrychioliadau rhif cyfrifiadurol hyd yn oed yn llai manwl gywir.

Cafodd y genhedlaeth gyntaf ei chyflwyno gyda microsaernïaeth Volta yn dechrau ar V100, roedd mwy o fformatau trachywiredd rhif cyfrifiadurol ar gael i'w cyfrifo gyda microsaernïaeth GPU newydd gyda phob cenhedlaeth yn pasio.

Byddwn yn siarad am sut mae gallu ac ymarferoldeb Tensor Cores wedi newid a gwella gyda phob cenhedlaeth microbensaernïaeth yn yr adran sy'n dilyn.

Delwedd wedi'i rendro'n graffigol gan Titan V

Sut mae Tensor Cores yn Gweithio?

Y Genhedlaeth Gyntaf:

Cafodd microbensaernïaeth Volta GPU ei gynnwys gyda'r genhedlaeth gyntaf o Tensor Cores. Roedd y creiddiau hyn yn ei gwneud hi'n bosibl hyfforddi gyda manwl gywirdeb cymysg a fformat rhif FP16.

Gallai hyn gael hyd at 12x hwb mewn trwybwn teraFLOP ar gyfer rhai GPUs. Mae creiddiau 640 y V100 haen uchaf yn rhoi hyd at gynnydd 5x mewn cyflymder perfformiad dros GPUs Pascal y genhedlaeth flaenorol.

Ail Genhedlaeth:

Gyda chyflwyniad Turing GPUs, cyflwynwyd yr ail genhedlaeth o Tensor Cores. Ychwanegwyd Int8, Int4, ac Int1 at y rhestr o fanylder Tensor Core a gefnogir, sefyn gyfyngedig yn flaenorol i FP16.

Oherwydd gweithdrefnau hyfforddi manwl gywir, cynyddwyd trwybwn perfformiad y GPU hyd at 32 gwaith o'i gymharu â GPUs Pascal.

Trydedd Genhedlaeth:

Mae'r bensaernïaeth mewn GPU Ampere yn ymhelaethu ar ddatblygiadau cynharach microarchitectures Volta a Turing trwy ychwanegu cefnogaeth ar gyfer manylder FP64, TF32, a bfloat16.

Mae hyfforddiant dysgu dwfn a gweithgareddau casglu yn cael eu cyflymu llawer mwy gan y fformatau manylder ychwanegol hyn. Er enghraifft, mae fformat TF32 yn gweithredu'n debyg i FP32 tra hefyd yn gwarantu hyd at gyflymder 20x heb newid unrhyw god.

Yna, gyda dim ond ychydig o linellau o god, bydd gweithredu manwl gywir cymysg awtomatig yn cyflymu hyfforddiant o 2x ychwanegol.

Mae NVLink trydedd genhedlaeth i alluogi rhyngweithiadau aml-GPU syfrdanol o gyflym, creiddiau Olrhain Ray trydedd genhedlaeth, ac arbenigo gyda mathemateg matrics gwasgaredig yn agweddau ychwanegol ar ficrosaernïaeth Ampere .

Y Bedwaredd Genhedlaeth:

Mae'r bedwaredd genhedlaeth o Tensor Cores sy'n seiliedig ar ficrosaernïaeth Hopper wedi'i chynllunio yn y dyfodol. Bydd y bedwaredd genhedlaeth Tensor Cores yn yr H100 nesaf.

y disgwylir iddo gael ei ryddhau ym mis Mawrth 2022, yn gallu ymdrin â fformatau manwl FP8 ac, yn ôl NVIDIA, bydd yn cyflymu modelau iaith enfawr “gan 30X syfrdanol. dros y genhedlaeth flaenorol.”

Mae cerdyn graffeg RTXa ddefnyddir ar gyfer rendro graffeg yn gyflym iawn gan ei fod yn cynnwys creiddiau tensor.

Y Gwahaniaeth rhwng Cores CUDA a Chreiddiau Tensor

Ar hyn o bryd mae creiddiau tensor wedi'u cyfyngu i Titan V a Tesla V100. Mae gan y creiddiau 5120 CUDA ar y ddau GPUs uchafswm cynhwysedd o un gweithrediad lluosogi-cronni manwl gywir (er enghraifft, yn fp32: x + = y * z) fesul cloc GPU (ee amlder Tesla V100 PCIe yw 1.38Gz).

Mae pob craidd tensor yn gweithredu ar fatricsau bach 4×4 ar gyfer matricsau bach. Fesul un cloc GPU, gall pob craidd tensor gwblhau un gweithrediad lluosi-cronni.

Mae'n lluosi dau fatrics 4×4 FP16 ac yn ychwanegu'r matrics 4×4 FP32 sy'n arwain at y cronadur (sef matrics fp32 4×4 hefyd).

Oherwydd mai fp16 yw'r matricsau mewnbwn tra bod y canlyniadau lluosi a'r cronadur yn fp32, gelwir yr algorithm yn drachywiredd cymysg.

Mae'n debyg mai dim ond “creiddiau matrics 4 × 4” fyddai'r term cywir, ond dewisodd tîm marchnata NVIDIA ddefnyddio “creiddiau tensor.”

Creiddiau tensor esboniad llawn yn gryno

Gweld hefyd: Gwahaniaeth rhwng y fformiwla v=ed a v=w/q – Yr Holl Gwahaniaethau GeForce GTX 1060 6GB GeForce GTX 1050 (2GB) <23

Cerdyn GPU	Creiddiau CUDA	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 Super	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 a896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB neu 2 GB

GPUs sy'n cynnwys creiddiau CUDA

Casgliad

Mae creiddiau CUDA a Tensor yn gynhyrchion, y ddau wedi'u datblygu gan gwmni o'r enw Nvidia. Ystyr CUDA yw Pensaernïaeth Dyfais Unedig Gyfrifiadurol. Mae'r creiddiau CUDA hyn yn bresennol yn eich GPUs, ffonau smart, a hyd yn oed eich ceir.
Tra bod creiddiau tensor, a ddatblygwyd hefyd gan Nvidia, hefyd yn cael eu defnyddio mewn GPUs. Mae creiddiau arbenigol o'r enw “Creiddiau Tensor” yn caniatáu hyfforddiant manwl-gywir. Roedd cenhedlaeth gyntaf Tensor Cores yn ei gwneud hi'n bosibl hyfforddi gyda manwl gywirdeb cymysg a fformat rhif FP16.
Gallai hyn gael hyd at 12x hwb mewn trwybwn teraFLOP ar gyfer rhai GPUs. Ychwanegwyd Int8, Int4, ac Int1 at y rhestr o fanwl gywirdeb Tensor Core a gefnogir.
Oherwydd cymysggweithdrefnau hyfforddi manwl gywir, cynyddwyd perfformiad y GPU hyd at 32 gwaith. Bwriedir rhyddhau pedwerydd cenhedlaeth Tensor Cores yn seiliedig ar ficrosaernïaeth Hopper.

#SNIGCONSULTANCY