Beth Yw'r Gwahaniaeth rhwng CUDA Cores a Tensor Cores? (Eglurwyd) – Yr Holl Wahaniaethau
Tabl cynnwys
Mae creiddiau CUDA a Tensor yn gynhyrchion a ddatblygwyd gan gwmni o'r enw Nvidia. Felly beth yw creiddiau CUDA a creiddiau Tensor? Ystyr CUDA yw Pensaernïaeth Dyfais Unedig Gyfrifiadurol. Mae creiddiau CUDA yn bresennol yn eich GPUs, ffonau smart, a hyd yn oed eich ceir, fel y dywed datblygwyr Nvidia.
Mae creiddiau CUDA yn blatfform cyfrifiadura cyfochrog a rhyngwyneb rhaglennu cymhwysiad (API) sy'n galluogi meddalwedd i ddefnyddio mathau penodol o unedau prosesu graffeg (GPUs) ar gyfer prosesu pwrpas cyffredinol.
Tra bod creiddiau tensor a ddatblygwyd hefyd gan Nvidia, hefyd yn cael eu defnyddio mewn GPUs. Mae Tensor Cores yn galluogi cyfrifiadura manwl-gywir, gan addasu cyfrifiadau'n ddeinamig i gynyddu trwybwn tra'n cynnal cywirdeb.
Mewn geiriau syml, mae'r creiddiau hyn yn rhan bwysig o'r GPUs yn eich cyfrifiadur i wneud rhai cyfrifiadau. Defnyddir creiddiau CUDA i luosi dau rif a'u hychwanegu at rif arall.
Tra bod craidd Tensor yr un peth ond gyda matricsau 4×4. Yn y bôn, mae'r cyfrifiadau hyn yn gwneud graffeg yn gyflymach i chi.
Beth Yw CUDA?
Mae Pensaernïaeth Dyfais Unedig Cyfrifiadurol yn fyr CUDA a ddatblygwyd gan Nvidia, a ryddhawyd ar 23 Mehefin, 2007, yn blatfform cyfrifiadura cyfochrog a rhyngwyneb rhaglennu cymhwysiad (API).
Hynny galluogi meddalwedd i ddefnyddio mathau penodol o unedau prosesu graffeg (GPUs) ar gyfer prosesu cyffredinol, dull a elwir yn gyfrifiadura pwrpas cyffredinol arGPUs (GPU).
Mae CUDA yn haen feddalwedd sy'n darparu mynediad uniongyrchol i set gyfarwyddiadau rhithwir y GPU ac elfennau cyfrifiannol cyfochrog ar gyfer gweithredu cnewyllyn cyfrifiadurol. Datblygwyd CUDA i weithio gyda gwahanol ieithoedd rhaglennu gan gynnwys C, C ++, a Fortran.
Mae'r gallu i weithio gyda gwahanol ieithoedd rhaglennu yn ei gwneud hi'n haws i arbenigwyr mewn rhaglennu cyfochrog ddefnyddio adnoddau GPU os ydym yn ei wahaniaethu oddi wrth APIs blaenorol fel Direct3D neu OpenGL, a fyddai'n gofyn bod gennych chi raglen uwch sylfaen sgiliau mewn rhaglennu graffigol.
GPU gyda CUDA hefyd yn cefnogi fframweithiau rhaglennu, megis OpenMP, OpenACC, OpenCL, a hefyd HIP sy'n gallu llunio cod o'r fath i CUDA. Yr enw cyntaf a ddefnyddiwyd ar gyfer CUDA oedd acronym ar gyfer Pensaernïaeth Dyfeisiau Unedig Cyfrifiadurol. Fodd bynnag, yn ddiweddarach gollyngodd Nvidia yr acronym a ddefnyddir yn gyffredin.
Cerdyn Graffeg Nvidia pwerus GTX 1080 Ti
Mwy Am CUDA
Fel prosesydd cyfrifiadurol arbenigol, mae'r uned prosesu graffeg (GPU) yn diwallu anghenion go iawn -amser, llwythi gwaith graffeg 3D cyfrifiadurol-ddwys.
Tua 2012 esblygodd GPUs ac roeddent wedi dod yn systemau aml-graidd cyfochrog iawn gan alluogi prosesu data effeithiol ar gyfer blociau mawr.
Wrth brosesu blociau enfawr o ddata ochr yn ochr, mae'r dyluniad hwn yn well nag unedau prosesu canolog cyffredinol (CPUs) ar gyfer algorithmau, megis:
Gweld hefyd: Ydy'r Gwahaniaeth Rhwng Uchder O 5'4 A 5'6 Yn Fawr? (Darganfod) – Yr Holl Wahaniaethau- stwnsh cryptograffegswyddogaethau
- dysgu peiriant
- efelychiadau deinameg moleciwlaidd
- peiriannau ffiseg
- algorithmau didoli
Defnyddiau o Bensaernïaeth CUDA Nawr a yn y Dyfodol
- Rendro carlam o graffeg 3D
- Rhyngnewid cyflymach o fformatau ffeil fideo
- Amgryptio, dadgryptio a chywasgu cyflymach
- Biowybodeg, e.e., dilyniannu DNA NGS BarraCUDA
- Cyfrifiadau wedi'u dosbarthu, megis rhagweld cydffurfiad brodorol proteinau
- Efelychiadau dadansoddi meddygol, er enghraifft, rhith-realiti yn seiliedig ar ddelweddau sgan CT ac MRI
- Efelychiadau corfforol, yn enwedig mewn dynameg hylif
- Hyfforddiant rhwydwaith nerfol mewn problemau dysgu peirianyddol
- Adnabod wyneb
- Prosiectau cyfrifiadura gwasgaredig, megis [e-bost warchodedig] a phrosiectau eraill sy'n defnyddio BOINC
- Deinameg moleciwlaidd
- Cronfa arian cyfred digidol mwyngloddio
- Adeiledd o feddalwedd mudiant (SfM)
Beth Yw Craidd Tensor?
Mae creiddiau arbenigol o'r enw Tensor Cores yn caniatáu hyfforddiant manwl-cymysg. Mae cenhedlaeth gychwynnol y creiddiau arbenigol hyn yn gwneud hyn gydag algorithm lluosi-ychwanegu cyfun. Mae hyn yn ei gwneud hi'n bosibl lluosi ac ychwanegu dau fatrics 4 x 4 FP16 at fatrics 4 x 4 FP16 neu FP32.
Y canlyniad yn y pen draw fydd FP32 gyda dim ond ychydig o golled drachywiredd, mae cyfrifiadura manwl-gywir wedi'i ddynodi felly er bodgall y matricsau mewnbwn fod yn fanwl gywir FP16.
Yn ymarferol, mae hyn yn cyflymu’r cyfrifiadau’n sylweddol heb fawr o ddylanwad ar effeithiolrwydd terfynol y model. Mae'r gallu hwn wedi'i ehangu gan ficrosaernïaeth diweddarach i gynrychioliadau rhif cyfrifiadurol hyd yn oed yn llai manwl gywir.
Cafodd y genhedlaeth gyntaf ei chyflwyno gyda microsaernïaeth Volta yn dechrau ar V100, roedd mwy o fformatau trachywiredd rhif cyfrifiadurol ar gael i'w cyfrifo gyda microsaernïaeth GPU newydd gyda phob cenhedlaeth yn pasio.
Byddwn yn siarad am sut mae gallu ac ymarferoldeb Tensor Cores wedi newid a gwella gyda phob cenhedlaeth microbensaernïaeth yn yr adran sy'n dilyn.
Delwedd wedi'i rendro'n graffigol gan Titan V
Sut mae Tensor Cores yn Gweithio?
Y Genhedlaeth Gyntaf:
Cafodd microbensaernïaeth Volta GPU ei gynnwys gyda'r genhedlaeth gyntaf o Tensor Cores. Roedd y creiddiau hyn yn ei gwneud hi'n bosibl hyfforddi gyda manwl gywirdeb cymysg a fformat rhif FP16.
Gallai hyn gael hyd at 12x hwb mewn trwybwn teraFLOP ar gyfer rhai GPUs. Mae creiddiau 640 y V100 haen uchaf yn rhoi hyd at gynnydd 5x mewn cyflymder perfformiad dros GPUs Pascal y genhedlaeth flaenorol.
Ail Genhedlaeth:
Gyda chyflwyniad Turing GPUs, cyflwynwyd yr ail genhedlaeth o Tensor Cores. Ychwanegwyd Int8, Int4, ac Int1 at y rhestr o fanylder Tensor Core a gefnogir, sefyn gyfyngedig yn flaenorol i FP16.
Oherwydd gweithdrefnau hyfforddi manwl gywir, cynyddwyd trwybwn perfformiad y GPU hyd at 32 gwaith o'i gymharu â GPUs Pascal.
Trydedd Genhedlaeth:
Mae'r bensaernïaeth mewn GPU Ampere yn ymhelaethu ar ddatblygiadau cynharach microarchitectures Volta a Turing trwy ychwanegu cefnogaeth ar gyfer manylder FP64, TF32, a bfloat16.
Mae hyfforddiant dysgu dwfn a gweithgareddau casglu yn cael eu cyflymu llawer mwy gan y fformatau manylder ychwanegol hyn. Er enghraifft, mae fformat TF32 yn gweithredu'n debyg i FP32 tra hefyd yn gwarantu hyd at gyflymder 20x heb newid unrhyw god.
Yna, gyda dim ond ychydig o linellau o god, bydd gweithredu manwl gywir cymysg awtomatig yn cyflymu hyfforddiant o 2x ychwanegol.
Mae NVLink trydedd genhedlaeth i alluogi rhyngweithiadau aml-GPU syfrdanol o gyflym, creiddiau Olrhain Ray trydedd genhedlaeth, ac arbenigo gyda mathemateg matrics gwasgaredig yn agweddau ychwanegol ar ficrosaernïaeth Ampere .
Y Bedwaredd Genhedlaeth:
Mae'r bedwaredd genhedlaeth o Tensor Cores sy'n seiliedig ar ficrosaernïaeth Hopper wedi'i chynllunio yn y dyfodol. Bydd y bedwaredd genhedlaeth Tensor Cores yn yr H100 nesaf.
y disgwylir iddo gael ei ryddhau ym mis Mawrth 2022, yn gallu ymdrin â fformatau manwl FP8 ac, yn ôl NVIDIA, bydd yn cyflymu modelau iaith enfawr “gan 30X syfrdanol. dros y genhedlaeth flaenorol.”
Mae cerdyn graffeg RTXa ddefnyddir ar gyfer rendro graffeg yn gyflym iawn gan ei fod yn cynnwys creiddiau tensor.
Y Gwahaniaeth rhwng Cores CUDA a Chreiddiau Tensor
Ar hyn o bryd mae creiddiau tensor wedi'u cyfyngu i Titan V a Tesla V100. Mae gan y creiddiau 5120 CUDA ar y ddau GPUs uchafswm cynhwysedd o un gweithrediad lluosogi-cronni manwl gywir (er enghraifft, yn fp32: x + = y * z) fesul cloc GPU (ee amlder Tesla V100 PCIe yw 1.38Gz).
Mae pob craidd tensor yn gweithredu ar fatricsau bach 4×4 ar gyfer matricsau bach. Fesul un cloc GPU, gall pob craidd tensor gwblhau un gweithrediad lluosi-cronni.
Mae'n lluosi dau fatrics 4×4 FP16 ac yn ychwanegu'r matrics 4×4 FP32 sy'n arwain at y cronadur (sef matrics fp32 4×4 hefyd).
Oherwydd mai fp16 yw'r matricsau mewnbwn tra bod y canlyniadau lluosi a'r cronadur yn fp32, gelwir yr algorithm yn drachywiredd cymysg.
Mae'n debyg mai dim ond “creiddiau matrics 4 × 4” fyddai'r term cywir, ond dewisodd tîm marchnata NVIDIA ddefnyddio “creiddiau tensor.”
Creiddiau tensor esboniad llawn yn gryno
Gweld hefyd: Gwahaniaeth rhwng y fformiwla v=ed a v=w/q – Yr Holl GwahaniaethauCerdyn GPU | Creiddiau CUDA | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB |
GeForce GTX 1660 Super | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 Super | 1408 | 4GB |
GeForce GTX 1650 | 1024 a896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
768 | 6GB | |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
640 | 3GB | |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB neu 2 GB |
GPUs sy'n cynnwys creiddiau CUDA
Casgliad
- Mae creiddiau CUDA a Tensor yn gynhyrchion, y ddau wedi'u datblygu gan gwmni o'r enw Nvidia. Ystyr CUDA yw Pensaernïaeth Dyfais Unedig Gyfrifiadurol. Mae'r creiddiau CUDA hyn yn bresennol yn eich GPUs, ffonau smart, a hyd yn oed eich ceir.
- Tra bod creiddiau tensor, a ddatblygwyd hefyd gan Nvidia, hefyd yn cael eu defnyddio mewn GPUs. Mae creiddiau arbenigol o'r enw “Creiddiau Tensor” yn caniatáu hyfforddiant manwl-gywir. Roedd cenhedlaeth gyntaf Tensor Cores yn ei gwneud hi'n bosibl hyfforddi gyda manwl gywirdeb cymysg a fformat rhif FP16.
- Gallai hyn gael hyd at 12x hwb mewn trwybwn teraFLOP ar gyfer rhai GPUs. Ychwanegwyd Int8, Int4, ac Int1 at y rhestr o fanwl gywirdeb Tensor Core a gefnogir.
- Oherwydd cymysggweithdrefnau hyfforddi manwl gywir, cynyddwyd perfformiad y GPU hyd at 32 gwaith. Bwriedir rhyddhau pedwerydd cenhedlaeth Tensor Cores yn seiliedig ar ficrosaernïaeth Hopper.