Kuna tofauti gani kati ya Cores za CUDA na Tensor Cores? (Imefafanuliwa) - Tofauti Zote

01-08-202301-08-2023 Mary Davis

Jedwali la yaliyomo

CUDA na Tensor cores ni bidhaa zilizotengenezwa na kampuni inayoitwa Nvidia. Kwa hivyo cores za CUDA na cores za Tensor ni nini? CUDA inasimama kwa Usanifu wa Kifaa cha Kuunganisha Kifaa. Viini vya CUDA vipo kwenye GPU, simu mahiri, na hata magari yako, kama wasanidi wa Nvidia wanavyosema.

Core za CUDA ni jukwaa la kompyuta sambamba na kiolesura cha programu cha programu (API) ambacho huwezesha programu kutumia aina mahususi za vitengo vya uchakataji wa michoro (GPUs) kwa uchakataji wa madhumuni ya jumla.

Ingawa alama za tensor ambazo pia zilitengenezwa na Nvidia, zinatumika pia katika GPU. Tensor Cores huwezesha kompyuta ya usahihi-mchanganyiko, kurekebisha hesabu kwa nguvu ili kuongeza matokeo huku ikidumisha usahihi.

Kwa maneno rahisi, cores hizi ni sehemu muhimu ya GPU katika pc yako kufanya hesabu fulani. Cores za CUDA hutumiwa kuzidisha nambari mbili na kuziongeza kwa nambari nyingine.

Wakati Tensor core ni sawa lakini yenye matrices 4×4. Hesabu hizi kimsingi zinakupa picha haraka zaidi.

CUDA Ni Nini?

Compute Unified Device Architecture kwa kifupi CUDA iliyotengenezwa na Nvidia, iliyotolewa tarehe 23 Juni, 2007, ni jukwaa la kompyuta sambamba na kiolesura cha programu cha programu (API).

Hiyo huwezesha programu kutumia aina maalum za vitengo vya usindikaji wa michoro (GPUs) kwa usindikaji wa madhumuni ya jumla, njia inayojulikana kama kompyuta ya kusudi la jumla kwenyeGPU (GPU).

CUDA ni safu ya programu inayotoa ufikiaji wa moja kwa moja kwa seti ya maelekezo pepe ya GPU na vipengele sambamba vya ukokotoaji kwa ajili ya utekelezaji wa kokotoo. CUDA ilitengenezwa kufanya kazi na lugha tofauti za programu ikiwa ni pamoja na C, C++, na Fortran.

Uwezo wa kufanya kazi na lugha tofauti za upangaji hurahisisha wataalamu katika upangaji programu kutumia rasilimali za GPU ikiwa tutaitofautisha na API za awali kama vile Direct3D au OpenGL, ambayo itakuhitaji uwe na ujuzi wa hali ya juu zaidi. msingi wa ujuzi katika utayarishaji wa picha.

Angalia pia: Tofauti kati ya tawi na tawi kwenye mti? - Tofauti zote

GPU iliyo na CUDA pia inaauni mifumo ya programu, kama vile OpenMP, OpenACC, OpenCL, na pia HIP ambayo inaweza kukusanya msimbo kama huo kwa CUDA. Jina la kwanza lililotumiwa kwa CUDA lilikuwa kifupi cha Usanifu wa Kifaa cha Kukokotoa. Walakini, Nvidia baadaye aliacha kifupi kinachotumiwa sana.

Kadi yenye nguvu ya Nvidia Graphics GTX 1080 Ti

Zaidi Kuhusu CUDA

Kama kichakataji maalum cha kompyuta, kitengo cha usindikaji wa michoro (GPU) kinakidhi mahitaji ya hali halisi. -wakati, mizigo ya kazi ya michoro ya 3D inayojumuisha.

Takriban 2012 GPU zilibadilika na kuwa mifumo ya msingi inayolingana sana inayowezesha uchakataji bora wa data kwa vizuizi vikubwa.

Wakati wa kuchakata vizuizi vikubwa vya data sambamba, muundo huu ni bora kuliko vitengo vya usindikaji vya madhumuni ya jumla (CPUs) vya algoriti, kama vile:

heshi ya kriptografia.vitendaji
kujifunza kwa mashine
miigo ya mienendo ya molekuli
injini za fizikia
kupanga algoriti

Matumizi ya Usanifu wa CUDA Sasa na katika Wakati Ujao

Utoaji ulioharakishwa wa michoro ya 3D
Ubadilishaji kasi wa ubadilishaji wa umbizo la faili za video
Usimbaji fiche ulioharakishwa, usimbaji fiche na ufinyazo
Bioinformatics, k.m., mpangilio wa NGS DNA BarraCUDA
Hesabu zinazosambazwa, kama vile kutabiri muundo asilia wa protini
miigaji ya uchambuzi wa kimatibabu, kwa mfano, uhalisia pepe kulingana na picha za CT na MRI scan
Uigaji halisi, hasa katika mienendo ya maji
Mafunzo ya mtandao wa neva katika matatizo ya kujifunza kwa mashine
Utambuzi wa uso
Miradi iliyosambazwa ya kompyuta, kama vile [barua pepe protected] na miradi mingine inayotumia BOINC
Mienendo ya Molekuli
Chembechembe za uchimbaji madini
Muundo kutoka kwa programu ya mwendo (SfM)

Kiini cha Tensor ni Nini?

Viini maalum vinavyoitwa Tensor Cores huruhusu mafunzo ya usahihi mchanganyiko. Kizazi cha awali cha cores hizi maalum hufanya hivi kwa algorithm iliyounganishwa ya kuongeza-kuzidisha. Hii inafanya uwezekano wa kuzidisha na kuongeza matiti mbili za 4 x 4 FP16 kwenye tumbo la 4 x 4 FP16 au FP32.

Matokeo ya mwisho yatakuwa FP32 kukiwa na upotezaji kidogo tu wa usahihi, kompyuta ya usahihi iliyochanganywa imeteuliwa kama hivyo ingawamatrices ya pembejeo inaweza kuwa ya chini-usahihi FP16.

Kwa vitendo, hii huharakisha mahesabu kwa kiasi kikubwa huku kukiwa na ushawishi mdogo kwenye ufanisi wa mwisho wa modeli. Uwezo huu umepanuliwa na miundo midogo ya baadaye hadi uwakilishi wa nambari za kompyuta zisizo sahihi zaidi.

Kizazi cha kwanza kilianzishwa na usanifu mdogo wa Volta kuanzia V100, miundo zaidi ya usahihi wa nambari za kompyuta ilipatikana kwa kukokotoa usanifu mpya wa GPU kwa kila kizazi kinachopita.

Tutazungumzia jinsi uwezo na utendaji wa Tensor Cores umebadilika na kuboreshwa kwa kila kizazi cha usanifu mdogo katika sehemu inayofuata.

Picha iliyoonyeshwa kwa mchoro iliyotengenezwa na Titan V

Je, Tensor Cores Hufanya Kazi Gani?

Kizazi cha Kwanza:

Usanifu mdogo wa Volta GPU ulijumuishwa na kizazi cha kwanza cha Tensor Cores. Cores hizi zilifanya iwezekane kutoa mafunzo kwa usahihi mchanganyiko na umbizo la nambari la FP16.

Hii inaweza kuwa na nyongeza ya mara 12 katika uboreshaji wa teraFLOP kwa GPU fulani. Viini 640 vya V100 vya kiwango cha juu hutoa hadi ongezeko la 5x la kasi ya utendakazi dhidi ya Pascal GPU za kizazi kilichopita.

Kizazi cha Pili:

Kwa kuanzishwa kwa Turing GPUs, kizazi cha pili cha Tensor Cores kilianzishwa. Int8, Int4, na Int1 ziliongezwa kwenye orodha ya usahihi wa Tensor Core unaotumika, ambaohapo awali ilikuwa na FP16.

Kwa sababu ya taratibu mchanganyiko za mafunzo ya usahihi, utendaji wa GPU uliongezeka hadi mara 32 ikilinganishwa na Pascal GPU.

Kizazi cha Tatu:

Usanifu katika Ampere GPU hupanuka kwenye maendeleo ya awali ya usanifu wa Volta na Turing kwa kuongeza usaidizi wa usahihi wa FP64, TF32 na bfloat16.

Shughuli za mafunzo ya kina na marejeleo huharakishwa zaidi na miundo hii ya usahihi wa ziada. Kwa mfano, umbizo la TF32 hufanya kazi sawa na FP32 huku pia ikihakikisha hadi kasi 20x bila kubadilisha msimbo wowote.

Kisha, kwa kutumia mistari michache tu ya msimbo, utekelezaji wa usahihi uliochanganywa kiotomatiki utaharakisha mafunzo kwa 2x za ziada.

NVLink ya kizazi cha tatu ili kuwezesha mwingiliano wa haraka wa GPU nyingi, chembe za Ray Tracing za kizazi cha tatu, na utaalam wa hisabati ndogo ya matrix ni vipengele vya ziada vya usanifu mdogo wa Ampere .

7> Kizazi cha Nne:

Kutolewa kwa siku zijazo kwa usanifu mdogo wa Hopper kulingana na kizazi cha nne cha Tensor Cores kunapangwa. Kizazi cha nne cha Tensor Cores katika H100 ijayo.

inayotarajiwa kutolewa Machi 2022, itaweza kushughulikia fomati za usahihi za FP8 na, kulingana na NVIDIA, itaongeza kasi ya miundo mikubwa ya lugha “kwa 30X ya kushangaza. katika kizazi kilichopita.”

Kadi ya michoro ya RTX nihutumika kuonyesha michoro kwa haraka sana kwa vile ina viini vya tensor.

Tofauti Kati ya Mihimili ya CUDA na Mihimili ya Tensor

Nyenzo za kipimio kwa sasa zimezuiwa kwa Titan V na Tesla V100. Viini 5120 vya CUDA kwenye GPU zote mbili vina uwezo wa juu wa operesheni moja ya usahihi wa kuzidisha kuzidisha (kwa mfano, katika fp32: x += y * z) kwa kila saa ya GPU (k.m. masafa ya Tesla V100 PCIe ni 1.38Gz).

Kila tensor core hufanya kazi kwenye matrices ndogo 4×4 kwa matrices madogo. Kwa saa moja ya GPU, kila msingi wa tensor unaweza kukamilisha operesheni ya kuzidisha ya matrix moja.

Angalia pia: "Upendo" na "Madly In Love" (Wacha Tutofautishe Hisia Hizi) - Tofauti Zote

Inazidisha matrices mawili ya 4×4 FP16 na kuongeza matrix 4×4 FP32 ambayo husababisha kikusanyaji (hicho pia ni fp32 4×4 matrix).

Kwa sababu matrices ya ingizo ni fp16 ilhali matokeo ya kuzidisha na kikusanya ni fp32, algoriti inajulikana kama usahihi mchanganyiko.

Neno sahihi linaweza kuwa tu "viini vya 4×4," lakini timu ya uuzaji ya NVIDIA ilichagua kutumia "tensor cores."

Misimbo ya kipima maelezo kamili kwa ufupi

kadi ya GPU	Cores za CUDA	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 Super	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 na896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB au 2 GB

GPU zilizo na cores za CUDA

Hitimisho

CUDA na Tensor cores ni bidhaa, zote zimetengenezwa na kampuni inayoitwa Nvidia. CUDA inasimama kwa Usanifu wa Kifaa cha Kuunganisha Kifaa. Cores hizi za CUDA zipo kwenye GPU, simu mahiri na hata magari yako.
Ingawa alama za tensor, ambazo pia zilitengenezwa na Nvidia, zinatumika pia katika GPU. Cores maalum zinazoitwa "Tensor cores" huruhusu mafunzo ya usahihi mchanganyiko. Kizazi cha kwanza cha Tensor Cores kilifanya iwezekane kutoa mafunzo kwa usahihi mchanganyiko na umbizo la nambari la FP16.
Hii inaweza kuwa na nyongeza ya mara 12 katika uboreshaji wa teraFLOP kwa GPU fulani. Int8, Int4, na Int1 ziliongezwa kwenye orodha ya usahihi wa Tensor Core unaotumika.
Kwa sababu ya mchanganyikotaratibu za mafunzo ya usahihi, utendaji wa GPU uliongezeka hadi mara 32. Toleo la baadaye la usanifu mdogo wa Hopper-msingi wa kizazi cha nne cha Tensor Cores imepangwa.

#SNIGCONSULTANCY