CUDA കോറുകളും ടെൻസർ കോറുകളും തമ്മിലുള്ള വ്യത്യാസം എന്താണ്? (വിശദീകരിച്ചത്) - എല്ലാ വ്യത്യാസങ്ങളും

01-08-202301-08-2023 Mary Davis

ഉള്ളടക്ക പട്ടിക

CUDA, Tensor cores എന്നിവ എൻവിഡിയ എന്ന കമ്പനി വികസിപ്പിച്ച ഉൽപ്പന്നങ്ങളാണ്. അപ്പോൾ എന്താണ് CUDA കോറുകളും ടെൻസർ കോറുകളും? CUDA എന്നാൽ കമ്പ്യൂട്ട് യൂണിഫൈഡ് ഡിവൈസ് ആർക്കിടെക്ചർ. എൻവിഡിയ ഡെവലപ്പർമാർ പറയുന്നതുപോലെ, നിങ്ങളുടെ ജിപിയുകളിലും സ്‌മാർട്ട്‌ഫോണുകളിലും നിങ്ങളുടെ കാറുകളിലും പോലും CUDA കോറുകൾ ഉണ്ട്.

സിയുഡിഎ കോറുകൾ ഒരു സമാന്തര കമ്പ്യൂട്ടിംഗ് പ്ലാറ്റ്‌ഫോമും ആപ്ലിക്കേഷൻ പ്രോഗ്രാമിംഗ് ഇന്റർഫേസും (എപിഐ) ആണ്, അത് പൊതു-ഉദ്ദേശ്യ പ്രോസസ്സിംഗിനായി പ്രത്യേക തരം ഗ്രാഫിക്സ് പ്രോസസ്സിംഗ് യൂണിറ്റുകൾ (ജിപിയു) ഉപയോഗിക്കുന്നതിന് സോഫ്‌റ്റ്‌വെയറിനെ പ്രാപ്‌തമാക്കുന്നു.

എൻവിഡിയ വികസിപ്പിച്ചെടുത്ത ടെൻസർ കോറുകൾ GPU-കളിലും ഉപയോഗിക്കുന്നു. ടെൻസർ കോറുകൾ മിക്സഡ്-പ്രിസിഷൻ കമ്പ്യൂട്ടിംഗ് പ്രവർത്തനക്ഷമമാക്കുന്നു, കൃത്യത നിലനിർത്തിക്കൊണ്ട് ത്രൂപുട്ട് വർദ്ധിപ്പിക്കുന്നതിന് കണക്കുകൂട്ടലുകൾ ചലനാത്മകമായി ക്രമീകരിക്കുന്നു.

ലളിതമായ വാക്കുകളിൽ, ചില കണക്കുകൂട്ടലുകൾ നടത്തുന്നതിന് ഈ കോറുകൾ നിങ്ങളുടെ പിസിയിലെ GPU-കളുടെ ഒരു പ്രധാന ഭാഗമാണ്. CUDA കോറുകൾ രണ്ട് സംഖ്യകളെ ഗുണിച്ച് മറ്റൊരു സംഖ്യയിലേക്ക് ചേർക്കാൻ ഉപയോഗിക്കുന്നു.

ഇതും കാണുക: വിസാർഡ് VS മന്ത്രവാദിനി: ആരാണ് നല്ലവൻ ആരാണ് തിന്മ? - എല്ലാ വ്യത്യാസങ്ങളും

അതേസമയം ടെൻസർ കോർ ഒന്നുതന്നെയാണെങ്കിലും 4×4 മെട്രിക്‌സുകളാണുള്ളത്. ഈ കണക്കുകൂട്ടലുകൾ അടിസ്ഥാനപരമായി നിങ്ങൾക്കായി ഗ്രാഫിക്സ് വേഗത്തിൽ റെൻഡർ ചെയ്യുന്നു.

എന്താണ് CUDA?

2007 ജൂൺ 23-ന് പുറത്തിറക്കിയ എൻ‌വിഡിയ വികസിപ്പിച്ചെടുത്ത ചുരുക്കത്തിൽ CUDA-യിലെ ഏകീകൃത ഉപകരണ ആർക്കിടെക്ചർ ഒരു സമാന്തര കമ്പ്യൂട്ടിംഗ് പ്ലാറ്റ്‌ഫോമും ആപ്ലിക്കേഷൻ പ്രോഗ്രാമിംഗ് ഇന്റർഫേസും (API) ആണ്.

അത്. പൊതു-ഉദ്ദേശ്യ പ്രോസസ്സിംഗിനായി നിർദ്ദിഷ്ട തരം ഗ്രാഫിക്സ് പ്രോസസ്സിംഗ് യൂണിറ്റുകൾ (ജിപിയു) ഉപയോഗിക്കാൻ സോഫ്‌റ്റ്‌വെയറിനെ പ്രാപ്‌തമാക്കുന്നു, ഈ രീതിയെ പൊതു-പർപ്പസ് കമ്പ്യൂട്ടിംഗ് എന്നറിയപ്പെടുന്നു.ജിപിയു (ജിപിയു).

CUDA എന്നത് GPU-യുടെ വെർച്വൽ ഇൻസ്ട്രക്ഷൻ സെറ്റിലേക്കും കമ്പ്യൂട്ട് കേർണലുകളുടെ നിർവ്വഹണത്തിനായി സമാന്തര കമ്പ്യൂട്ടേഷണൽ ഘടകങ്ങളിലേക്കും നേരിട്ട് പ്രവേശനം നൽകുന്ന ഒരു സോഫ്റ്റ്‌വെയർ പാളിയാണ്. C, C++, Fortran എന്നിവയുൾപ്പെടെ വിവിധ പ്രോഗ്രാമിംഗ് ഭാഷകളിൽ പ്രവർത്തിക്കാൻ CUDA വികസിപ്പിച്ചെടുത്തു.

വ്യത്യസ്‌ത പ്രോഗ്രാമിംഗ് ഭാഷകളിൽ പ്രവർത്തിക്കാനുള്ള കഴിവ്, Direct3D അല്ലെങ്കിൽ OpenGL പോലുള്ള മുൻ API-കളിൽ നിന്ന് GPU ഉറവിടങ്ങൾ ഞങ്ങൾ വേർതിരിക്കുകയാണെങ്കിൽ, സമാന്തര പ്രോഗ്രാമിംഗിലെ സ്പെഷ്യലിസ്റ്റുകൾക്ക് അത് ഉപയോഗിക്കുന്നത് എളുപ്പമാക്കുന്നു. ഗ്രാഫിക്കൽ പ്രോഗ്രാമിംഗിൽ വൈദഗ്ദ്ധ്യം.

CUDA-യ്‌ക്കൊപ്പമുള്ള GPU, OpenMP, OpenACC, OpenCL, കൂടാതെ CUDA-യിലേക്ക് അത്തരം കോഡ് കംപൈൽ ചെയ്യാൻ കഴിയുന്ന HIP പോലുള്ള പ്രോഗ്രാമിംഗ് ചട്ടക്കൂടുകളെ പിന്തുണയ്ക്കുന്നു. കമ്പ്യൂട്ട് യൂണിഫൈഡ് ഡിവൈസ് ആർക്കിടെക്ചർ എന്നതിന്റെ ചുരുക്കപ്പേരാണ് CUDA എന്നതിന് ആദ്യം ഉപയോഗിച്ചത്. എന്നിരുന്നാലും, എൻവിഡിയ പിന്നീട് സാധാരണയായി ഉപയോഗിക്കുന്ന ചുരുക്കെഴുത്ത് ഉപേക്ഷിച്ചു.

ഒരു ശക്തമായ എൻവിഡിയ ഗ്രാഫിക്സ് കാർഡ് GTX 1080 Ti

CUDA-യെ കുറിച്ച് കൂടുതൽ

ഒരു പ്രത്യേക കമ്പ്യൂട്ടർ പ്രൊസസർ എന്ന നിലയിൽ, ഗ്രാഫിക്സ് പ്രോസസ്സിംഗ് യൂണിറ്റ് (GPU) യഥാർത്ഥ ആവശ്യങ്ങൾ നിറവേറ്റുന്നു -സമയം, കമ്പ്യൂട്ട്-ഇന്റൻസീവ് 3D ഗ്രാഫിക്സ് വർക്ക്ലോഡുകൾ.

ഏകദേശം 2012 GPU-കൾ വികസിക്കുകയും വലിയ ബ്ലോക്കുകൾക്കായി ഫലപ്രദമായ ഡാറ്റ പ്രോസസ്സിംഗ് പ്രാപ്തമാക്കുന്ന ഉയർന്ന സമാന്തര മൾട്ടി-കോർ സിസ്റ്റങ്ങളായി മാറുകയും ചെയ്തു.

സമാന്തരമായി ഡാറ്റയുടെ വലിയ ബ്ലോക്കുകൾ പ്രോസസ്സ് ചെയ്യുമ്പോൾ, ഈ ഡിസൈൻ അൽഗോരിതങ്ങൾക്കായുള്ള പൊതു-ഉദ്ദേശ്യ സെൻട്രൽ പ്രോസസ്സിംഗ് യൂണിറ്റുകളേക്കാൾ (സിപിയു) മികച്ചതാണ്:

ക്രിപ്‌റ്റോഗ്രാഫിക് ഹാഷ്പ്രവർത്തനങ്ങൾ
മെഷീൻ ലേണിംഗ്
മോളിക്യുലർ ഡൈനാമിക്സ് സിമുലേഷനുകൾ
ഫിസിക്‌സ് എഞ്ചിനുകൾ
അൽഗരിതങ്ങൾ അടുക്കുക

CUDA ആർക്കിടെക്ചറിന്റെ ഉപയോഗങ്ങളും ഇപ്പോൾ ഭാവിയിൽ

3D ഗ്രാഫിക്‌സിന്റെ ത്വരിതപ്പെടുത്തിയ റെൻഡറിംഗ്
വീഡിയോ ഫയൽ ഫോർമാറ്റുകളുടെ ത്വരിതഗതിയിലുള്ള പരസ്പര പരിവർത്തനം
ത്വരിതപ്പെടുത്തിയ എൻക്രിപ്ഷൻ, ഡീക്രിപ്ഷൻ, കംപ്രഷൻ
ബയോ ഇൻഫോർമാറ്റിക്സ്, ഉദാ., NGS DNA sequencing BarraCUDA
ഡിസ്ട്രിബ്യൂട്ടഡ് കണക്കുകൂട്ടലുകൾ, പ്രോട്ടീനുകളുടെ നേറ്റീവ് കോൺഫോർമേഷൻ പ്രവചിക്കുന്നത് പോലെയുള്ള
മെഡിക്കൽ അനാലിസിസ് സിമുലേഷനുകൾ, ഉദാഹരണത്തിന്, CT, MRI സ്കാൻ ഇമേജുകൾ അടിസ്ഥാനമാക്കിയുള്ള വെർച്വൽ റിയാലിറ്റി
ഫിസിക്കൽ സിമുലേഷനുകൾ, പ്രത്യേകിച്ച് ഫ്ലൂയിഡ് ഡൈനാമിക്സിൽ
മെഷീൻ ലേണിംഗ് പ്രശ്‌നങ്ങളിലെ ന്യൂറൽ നെറ്റ്‌വർക്ക് പരിശീലനം
മുഖം തിരിച്ചറിയൽ
വിതരണം ചെയ്‌ത കമ്പ്യൂട്ടിംഗ് പ്രോജക്‌റ്റുകൾ, [ഇമെയിൽ പ്രൊട്ടക്‌റ്റഡ്] പോലെയുള്ള മറ്റ് പ്രോജക്‌റ്റുകൾ BOINC
മോളിക്യുലാർ ഡൈനാമിക്‌സ്
മൈനിംഗ് ക്രിപ്‌റ്റോകറൻസികൾ
സ്ട്രക്ചർ ഫ്രം മോഷൻ (SfM) സോഫ്റ്റ്‌വെയർ

എന്താണ് ടെൻസർ കോർ?

ടെൻസർ കോറുകൾ എന്ന് വിളിക്കപ്പെടുന്ന പ്രത്യേക കോറുകൾ മിക്സഡ്-പ്രിസിഷൻ ട്രെയിനിംഗ് അനുവദിക്കുന്നു. ഈ സ്പെഷ്യലൈസ്ഡ് കോറുകളുടെ പ്രാരംഭ തലമുറ ഇത് ഒരു ഫ്യൂസ്ഡ് മൾട്ടിപ്ലൈ ആഡ് അൽഗോരിതം ഉപയോഗിച്ചാണ് ചെയ്യുന്നത്. ഒരു 4 x 4 FP16 അല്ലെങ്കിൽ FP32 മാട്രിക്സിലേക്ക് രണ്ട് 4 x 4 FP16 മെട്രിക്സുകൾ വർദ്ധിപ്പിക്കാനും ചേർക്കാനും ഇത് സാധ്യമാക്കുന്നു.

ആത്യന്തിക ഫലം FP32 ആയിരിക്കും, സൂക്ഷ്മതയിൽ നേരിയ നഷ്ടം മാത്രമേ ഉണ്ടാകൂ, മിക്സഡ് പ്രിസിഷൻ കമ്പ്യൂട്ടിംഗ് അങ്ങനെയാണ് നിയുക്തമാക്കിയിരിക്കുന്നത്.ഇൻപുട്ട് മെട്രിക്‌സ് കുറഞ്ഞ കൃത്യതയുള്ള FP16 ആയിരിക്കാം.

പ്രായോഗികമായി, ഇത് മോഡലിന്റെ അന്തിമ ഫലപ്രാപ്തിയിൽ കാര്യമായ സ്വാധീനം ചെലുത്താതെ കണക്കുകൂട്ടലുകളെ ഗണ്യമായി വേഗത്തിലാക്കുന്നു. ഈ ശേഷി പിന്നീടുള്ള മൈക്രോ ആർക്കിടെക്ചറുകളാൽ കുറച്ചുകൂടി കൃത്യമായ കമ്പ്യൂട്ടർ നമ്പർ പ്രാതിനിധ്യത്തിലേക്ക് വിപുലീകരിച്ചു.

V100-ൽ ആരംഭിക്കുന്ന വോൾട്ട മൈക്രോ ആർക്കിടെക്ചറോടെയാണ് ആദ്യ തലമുറ അവതരിപ്പിച്ചത്, ഓരോ തലമുറ കടന്നുപോകുമ്പോഴും പുതിയ GPU മൈക്രോ ആർക്കിടെക്ചറുകൾ ഉപയോഗിച്ച് കൂടുതൽ കമ്പ്യൂട്ടർ നമ്പർ പ്രിസിഷൻ ഫോർമാറ്റുകൾ ലഭ്യമാക്കി.

ഓരോ മൈക്രോ ആർക്കിടെക്ചർ ജനറേഷനും ടെൻസർ കോറുകളുടെ ശേഷിയും പ്രവർത്തനവും എങ്ങനെ മാറുകയും മെച്ചപ്പെടുത്തുകയും ചെയ്‌തു എന്നതിനെക്കുറിച്ച് ഞങ്ങൾ ഇനിപ്പറയുന്ന വിഭാഗത്തിൽ സംസാരിക്കും.

ടൈറ്റൻ വി സൃഷ്‌ടിച്ച ഗ്രാഫിക്കലി റെൻഡർ ചെയ്‌ത ചിത്രം

ടെൻസർ കോറുകൾ എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?

ആദ്യ തലമുറ:

വോൾട്ട ജിപിയു മൈക്രോ ആർക്കിടെക്ചർ ടെൻസർ കോറുകളുടെ ആദ്യ തലമുറയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഈ കോറുകൾ മിക്സഡ് പ്രിസിഷനും FP16 നമ്പർ ഫോർമാറ്റും ഉപയോഗിച്ച് പരിശീലനം സാധ്യമാക്കി.

ചില GPU-കൾക്കുള്ള ടെറാഫ്ലോപ്പ് ത്രൂപുട്ടിൽ ഇതിന് 12x വരെ ബൂസ്റ്റ് ഉണ്ടായേക്കാം. മുൻ തലമുറയിലെ പാസ്കൽ GPU-കളെ അപേക്ഷിച്ച് ടോപ്പ്-ടയർ V100-ന്റെ 640 കോറുകൾ പ്രകടന വേഗതയിൽ 5 മടങ്ങ് വർദ്ധനവ് നൽകുന്നു.

രണ്ടാം തലമുറ:

Turing GPU-കൾ അവതരിപ്പിച്ചതോടെ, ടെൻസർ കോറുകളുടെ രണ്ടാം തലമുറ അവതരിപ്പിച്ചു. Int8, Int4, Int1 എന്നിവ പിന്തുണയ്‌ക്കുന്ന ടെൻസർ കോർ കൃത്യതകളുടെ പട്ടികയിൽ ചേർത്തു, അവമുമ്പ് FP16 ആയി പരിമിതപ്പെടുത്തിയിരുന്നു.

മിക്സഡ് പ്രിസിഷൻ പരിശീലന നടപടിക്രമങ്ങൾ കാരണം, പാസ്കൽ ജിപിയുവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ജിപിയുവിന്റെ പ്രകടന ത്രൂപുട്ട് 32 മടങ്ങ് വരെ വർദ്ധിച്ചു.

മൂന്നാം തലമുറ:

FP64, TF32, bfloat16 പ്രിസിഷൻ എന്നിവയ്‌ക്കുള്ള പിന്തുണ ചേർത്ത് വോൾട്ട, ട്യൂറിംഗ് മൈക്രോ ആർക്കിടെക്‌ചറുകളുടെ മുൻകാല മുന്നേറ്റങ്ങളിൽ ആമ്പിയർ ജിപിയുവിലെ ആർക്കിടെക്ചർ വികസിക്കുന്നു.

ആഴത്തിലുള്ള പഠന പരിശീലനവും അനുമാന പ്രവർത്തനങ്ങളും ഈ അധിക കൃത്യതയുള്ള ഫോർമാറ്റുകൾ വഴി കൂടുതൽ ത്വരിതപ്പെടുത്തുന്നു. ഉദാഹരണത്തിന്, TF32 ഫോർമാറ്റ് FP32-ന് സമാനമായി പ്രവർത്തിക്കുന്നു, അതേസമയം ഒരു കോഡും മാറ്റാതെ തന്നെ 20x സ്പീഡ്അപ്പുകൾ വരെ ഉറപ്പ് നൽകുന്നു.

പിന്നെ, കുറച്ച് വരി കോഡ് ഉപയോഗിച്ച്, യാന്ത്രിക മിക്സഡ് പ്രിസിഷൻ ഇംപ്ലിമെന്റേഷൻ പരിശീലനത്തെ 2 മടങ്ങ് വേഗത്തിലാക്കും.

ആംപിയർ മൈക്രോ ആർക്കിടെക്ചറിന്റെ അധിക വശങ്ങൾ ആണ്. 7> നാലാം തലമുറ:

ഹോപ്പർ മൈക്രോ ആർക്കിടെക്ചർ അടിസ്ഥാനമാക്കിയുള്ള ടെൻസർ കോറുകളുടെ നാലാം തലമുറയുടെ ഭാവി റിലീസ് ആസൂത്രണം ചെയ്തിട്ടുണ്ട്. അടുത്ത H100-ലെ നാലാം തലമുറ ടെൻസർ കോറുകൾ.

ഇത് 2022 മാർച്ചിൽ പുറത്തിറങ്ങുമെന്ന് പ്രതീക്ഷിക്കുന്നു, FP8 പ്രിസിഷൻ ഫോർമാറ്റുകൾ കൈകാര്യം ചെയ്യാൻ കഴിയും, NVIDIA അനുസരിച്ച്, വലിയ ഭാഷാ മോഡലുകൾ "അത്ഭുതപ്പെടുത്തുന്ന 30X കൊണ്ട് ത്വരിതപ്പെടുത്തും. മുൻ തലമുറയെക്കാൾ.”

ഒരു RTX ഗ്രാഫിക്സ് കാർഡ്ടെൻസർ കോറുകൾ അടങ്ങിയിരിക്കുന്നതിനാൽ ഗ്രാഫിക്സ് വളരെ വേഗത്തിൽ റെൻഡർ ചെയ്യാൻ ഉപയോഗിക്കുന്നു.

CUDA കോറുകളും ടെൻസർ കോറുകളും തമ്മിലുള്ള വ്യത്യാസം

ടെൻസർ കോറുകൾ നിലവിൽ Titan V, Tesla V100 എന്നിവയിൽ പരിമിതപ്പെടുത്തിയിരിക്കുന്നു. രണ്ട് GPU-കളിലെയും 5120 CUDA കോറുകൾക്ക് ഒരു GPU ക്ലോക്കിൽ (ഉദാഹരണത്തിന്, Tesla V100 PCIe ഫ്രീക്വൻസി 1.38Gz ആണ്) പരമാവധി ഒറ്റ പ്രിസിഷൻ മൾട്ടിപ്ലൈ-അക്യുമുലേറ്റ് ഓപ്പറേഷൻ (ഉദാഹരണത്തിന്, fp32: x += y * z) ശേഷിയുണ്ട്.

ഓരോ ടെൻസർ കോറും ചെറിയ മെട്രിക്സുകൾക്കായി 4×4 ചെറിയ മെട്രിക്സുകളിൽ പ്രവർത്തിക്കുന്നു. ഒരു GPU ക്ലോക്കിന്, ഓരോ ടെൻസർ കോറിനും ഒരു മാട്രിക്സ് മൾട്ടിപ്ലൈ-അക്മുലേറ്റ് പ്രവർത്തനം പൂർത്തിയാക്കാൻ കഴിയും.

ഇത് രണ്ട് 4×4 FP16 മെട്രിക്‌സുകളെ ഗുണിക്കുകയും 4×4 FP32 മാട്രിക്‌സ് ചേർക്കുകയും ചെയ്യുന്നു, അത് അക്യുമുലേറ്ററിന് കാരണമാകുന്നു (അതും ഒരു fp32 4×4 മാട്രിക്‌സ് ആണ്).

ഇതും കാണുക: 1/1000 എന്നും 1:1000 എന്നും പറയുന്നതിനുള്ള പ്രധാന വ്യത്യാസം എന്താണ്? (ചോദ്യം പരിഹരിച്ചു) - എല്ലാ വ്യത്യാസങ്ങളും

ഇൻപുട്ട് മെട്രിക്‌സുകൾ fp16 ആയതിനാൽ ഗുണന ഫലങ്ങളും അക്യുമുലേറ്ററും fp32 ആയതിനാൽ, അൽഗോരിതം മിക്സഡ് പ്രിസിഷൻ എന്നാണ് അറിയപ്പെടുന്നത്.

ശരിയായ പദം "4×4 മാട്രിക്സ് കോറുകൾ" മാത്രമായിരിക്കാം, എന്നാൽ എൻവിഡിയ മാർക്കറ്റിംഗ് ടീം "ടെൻസർ കോറുകൾ" ഉപയോഗിക്കാൻ തിരഞ്ഞെടുത്തു.

ടെൻസർ കോറുകളുടെ പൂർണ്ണ വിശദീകരണം ചുരുക്കത്തിൽ

<23

GPU കാർഡ്	CUDA കോറുകൾ	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 Super	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 ഒപ്പം896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB അല്ലെങ്കിൽ 2 GB

CUDA കോറുകൾ അടങ്ങിയിരിക്കുന്ന GPU-കൾ

ഉപസംഹാരം

CUDA, Tensor cores എന്നിവ എൻവിഡിയ എന്ന കമ്പനി വികസിപ്പിച്ച ഉൽപ്പന്നങ്ങളാണ്. CUDA എന്നാൽ കമ്പ്യൂട്ട് യൂണിഫൈഡ് ഡിവൈസ് ആർക്കിടെക്ചർ. ഈ CUDA കോറുകൾ നിങ്ങളുടെ GPU-കളിലും സ്മാർട്ട്ഫോണുകളിലും നിങ്ങളുടെ കാറുകളിലും ഉണ്ട്.
എൻവിഡിയ വികസിപ്പിച്ചെടുത്ത ടെൻസർ കോറുകൾ GPU-കളിലും ഉപയോഗിക്കുന്നു. "ടെൻസർ കോറുകൾ" എന്ന് വിളിക്കപ്പെടുന്ന പ്രത്യേക കോറുകൾ മിക്സഡ്-പ്രിസിഷൻ ട്രെയിനിംഗ് അനുവദിക്കുന്നു. ആദ്യ തലമുറ ടെൻസർ കോറുകൾ മിക്സഡ് പ്രിസിഷനും FP16 നമ്പർ ഫോർമാറ്റും ഉപയോഗിച്ച് പരിശീലനം സാധ്യമാക്കി.
ഇതിന് ചില GPU-കൾക്കായി teraFLOP ത്രൂപുട്ടിൽ 12x വരെ ബൂസ്റ്റ് ഉണ്ടായേക്കാം. Int8, Int4, Int1 എന്നിവ പിന്തുണയ്‌ക്കുന്ന ടെൻസർ കോർ കൃത്യതകളുടെ പട്ടികയിൽ ചേർത്തു.
മിശ്രണം കാരണംകൃത്യമായ പരിശീലന നടപടിക്രമങ്ങൾ, ജിപിയുവിന്റെ പ്രകടനം 32 മടങ്ങ് വരെ വർദ്ധിച്ചു. ഹോപ്പർ മൈക്രോ ആർക്കിടെക്ചർ അടിസ്ഥാനമാക്കിയുള്ള ടെൻസർ കോറുകളുടെ നാലാം തലമുറയുടെ ഭാവി റിലീസ് ആസൂത്രണം ചെയ്തിട്ടുണ്ട്.

#SNIGCONSULTANCY