CUDA കോറുകളും ടെൻസർ കോറുകളും തമ്മിലുള്ള വ്യത്യാസം എന്താണ്? (വിശദീകരിച്ചത്) - എല്ലാ വ്യത്യാസങ്ങളും
ഉള്ളടക്ക പട്ടിക
CUDA, Tensor cores എന്നിവ എൻവിഡിയ എന്ന കമ്പനി വികസിപ്പിച്ച ഉൽപ്പന്നങ്ങളാണ്. അപ്പോൾ എന്താണ് CUDA കോറുകളും ടെൻസർ കോറുകളും? CUDA എന്നാൽ കമ്പ്യൂട്ട് യൂണിഫൈഡ് ഡിവൈസ് ആർക്കിടെക്ചർ. എൻവിഡിയ ഡെവലപ്പർമാർ പറയുന്നതുപോലെ, നിങ്ങളുടെ ജിപിയുകളിലും സ്മാർട്ട്ഫോണുകളിലും നിങ്ങളുടെ കാറുകളിലും പോലും CUDA കോറുകൾ ഉണ്ട്.
സിയുഡിഎ കോറുകൾ ഒരു സമാന്തര കമ്പ്യൂട്ടിംഗ് പ്ലാറ്റ്ഫോമും ആപ്ലിക്കേഷൻ പ്രോഗ്രാമിംഗ് ഇന്റർഫേസും (എപിഐ) ആണ്, അത് പൊതു-ഉദ്ദേശ്യ പ്രോസസ്സിംഗിനായി പ്രത്യേക തരം ഗ്രാഫിക്സ് പ്രോസസ്സിംഗ് യൂണിറ്റുകൾ (ജിപിയു) ഉപയോഗിക്കുന്നതിന് സോഫ്റ്റ്വെയറിനെ പ്രാപ്തമാക്കുന്നു.
എൻവിഡിയ വികസിപ്പിച്ചെടുത്ത ടെൻസർ കോറുകൾ GPU-കളിലും ഉപയോഗിക്കുന്നു. ടെൻസർ കോറുകൾ മിക്സഡ്-പ്രിസിഷൻ കമ്പ്യൂട്ടിംഗ് പ്രവർത്തനക്ഷമമാക്കുന്നു, കൃത്യത നിലനിർത്തിക്കൊണ്ട് ത്രൂപുട്ട് വർദ്ധിപ്പിക്കുന്നതിന് കണക്കുകൂട്ടലുകൾ ചലനാത്മകമായി ക്രമീകരിക്കുന്നു.
ലളിതമായ വാക്കുകളിൽ, ചില കണക്കുകൂട്ടലുകൾ നടത്തുന്നതിന് ഈ കോറുകൾ നിങ്ങളുടെ പിസിയിലെ GPU-കളുടെ ഒരു പ്രധാന ഭാഗമാണ്. CUDA കോറുകൾ രണ്ട് സംഖ്യകളെ ഗുണിച്ച് മറ്റൊരു സംഖ്യയിലേക്ക് ചേർക്കാൻ ഉപയോഗിക്കുന്നു.
ഇതും കാണുക: വിസാർഡ് VS മന്ത്രവാദിനി: ആരാണ് നല്ലവൻ ആരാണ് തിന്മ? - എല്ലാ വ്യത്യാസങ്ങളുംഅതേസമയം ടെൻസർ കോർ ഒന്നുതന്നെയാണെങ്കിലും 4×4 മെട്രിക്സുകളാണുള്ളത്. ഈ കണക്കുകൂട്ടലുകൾ അടിസ്ഥാനപരമായി നിങ്ങൾക്കായി ഗ്രാഫിക്സ് വേഗത്തിൽ റെൻഡർ ചെയ്യുന്നു.
എന്താണ് CUDA?
2007 ജൂൺ 23-ന് പുറത്തിറക്കിയ എൻവിഡിയ വികസിപ്പിച്ചെടുത്ത ചുരുക്കത്തിൽ CUDA-യിലെ ഏകീകൃത ഉപകരണ ആർക്കിടെക്ചർ ഒരു സമാന്തര കമ്പ്യൂട്ടിംഗ് പ്ലാറ്റ്ഫോമും ആപ്ലിക്കേഷൻ പ്രോഗ്രാമിംഗ് ഇന്റർഫേസും (API) ആണ്.
അത്. പൊതു-ഉദ്ദേശ്യ പ്രോസസ്സിംഗിനായി നിർദ്ദിഷ്ട തരം ഗ്രാഫിക്സ് പ്രോസസ്സിംഗ് യൂണിറ്റുകൾ (ജിപിയു) ഉപയോഗിക്കാൻ സോഫ്റ്റ്വെയറിനെ പ്രാപ്തമാക്കുന്നു, ഈ രീതിയെ പൊതു-പർപ്പസ് കമ്പ്യൂട്ടിംഗ് എന്നറിയപ്പെടുന്നു.ജിപിയു (ജിപിയു).
CUDA എന്നത് GPU-യുടെ വെർച്വൽ ഇൻസ്ട്രക്ഷൻ സെറ്റിലേക്കും കമ്പ്യൂട്ട് കേർണലുകളുടെ നിർവ്വഹണത്തിനായി സമാന്തര കമ്പ്യൂട്ടേഷണൽ ഘടകങ്ങളിലേക്കും നേരിട്ട് പ്രവേശനം നൽകുന്ന ഒരു സോഫ്റ്റ്വെയർ പാളിയാണ്. C, C++, Fortran എന്നിവയുൾപ്പെടെ വിവിധ പ്രോഗ്രാമിംഗ് ഭാഷകളിൽ പ്രവർത്തിക്കാൻ CUDA വികസിപ്പിച്ചെടുത്തു.
വ്യത്യസ്ത പ്രോഗ്രാമിംഗ് ഭാഷകളിൽ പ്രവർത്തിക്കാനുള്ള കഴിവ്, Direct3D അല്ലെങ്കിൽ OpenGL പോലുള്ള മുൻ API-കളിൽ നിന്ന് GPU ഉറവിടങ്ങൾ ഞങ്ങൾ വേർതിരിക്കുകയാണെങ്കിൽ, സമാന്തര പ്രോഗ്രാമിംഗിലെ സ്പെഷ്യലിസ്റ്റുകൾക്ക് അത് ഉപയോഗിക്കുന്നത് എളുപ്പമാക്കുന്നു. ഗ്രാഫിക്കൽ പ്രോഗ്രാമിംഗിൽ വൈദഗ്ദ്ധ്യം.
CUDA-യ്ക്കൊപ്പമുള്ള GPU, OpenMP, OpenACC, OpenCL, കൂടാതെ CUDA-യിലേക്ക് അത്തരം കോഡ് കംപൈൽ ചെയ്യാൻ കഴിയുന്ന HIP പോലുള്ള പ്രോഗ്രാമിംഗ് ചട്ടക്കൂടുകളെ പിന്തുണയ്ക്കുന്നു. കമ്പ്യൂട്ട് യൂണിഫൈഡ് ഡിവൈസ് ആർക്കിടെക്ചർ എന്നതിന്റെ ചുരുക്കപ്പേരാണ് CUDA എന്നതിന് ആദ്യം ഉപയോഗിച്ചത്. എന്നിരുന്നാലും, എൻവിഡിയ പിന്നീട് സാധാരണയായി ഉപയോഗിക്കുന്ന ചുരുക്കെഴുത്ത് ഉപേക്ഷിച്ചു.
ഒരു ശക്തമായ എൻവിഡിയ ഗ്രാഫിക്സ് കാർഡ് GTX 1080 Ti
CUDA-യെ കുറിച്ച് കൂടുതൽ
ഒരു പ്രത്യേക കമ്പ്യൂട്ടർ പ്രൊസസർ എന്ന നിലയിൽ, ഗ്രാഫിക്സ് പ്രോസസ്സിംഗ് യൂണിറ്റ് (GPU) യഥാർത്ഥ ആവശ്യങ്ങൾ നിറവേറ്റുന്നു -സമയം, കമ്പ്യൂട്ട്-ഇന്റൻസീവ് 3D ഗ്രാഫിക്സ് വർക്ക്ലോഡുകൾ.
ഏകദേശം 2012 GPU-കൾ വികസിക്കുകയും വലിയ ബ്ലോക്കുകൾക്കായി ഫലപ്രദമായ ഡാറ്റ പ്രോസസ്സിംഗ് പ്രാപ്തമാക്കുന്ന ഉയർന്ന സമാന്തര മൾട്ടി-കോർ സിസ്റ്റങ്ങളായി മാറുകയും ചെയ്തു.
സമാന്തരമായി ഡാറ്റയുടെ വലിയ ബ്ലോക്കുകൾ പ്രോസസ്സ് ചെയ്യുമ്പോൾ, ഈ ഡിസൈൻ അൽഗോരിതങ്ങൾക്കായുള്ള പൊതു-ഉദ്ദേശ്യ സെൻട്രൽ പ്രോസസ്സിംഗ് യൂണിറ്റുകളേക്കാൾ (സിപിയു) മികച്ചതാണ്:
- ക്രിപ്റ്റോഗ്രാഫിക് ഹാഷ്പ്രവർത്തനങ്ങൾ
- മെഷീൻ ലേണിംഗ്
- മോളിക്യുലർ ഡൈനാമിക്സ് സിമുലേഷനുകൾ
- ഫിസിക്സ് എഞ്ചിനുകൾ
- അൽഗരിതങ്ങൾ അടുക്കുക
CUDA ആർക്കിടെക്ചറിന്റെ ഉപയോഗങ്ങളും ഇപ്പോൾ ഭാവിയിൽ
- 3D ഗ്രാഫിക്സിന്റെ ത്വരിതപ്പെടുത്തിയ റെൻഡറിംഗ്
- വീഡിയോ ഫയൽ ഫോർമാറ്റുകളുടെ ത്വരിതഗതിയിലുള്ള പരസ്പര പരിവർത്തനം
- ത്വരിതപ്പെടുത്തിയ എൻക്രിപ്ഷൻ, ഡീക്രിപ്ഷൻ, കംപ്രഷൻ
- ബയോ ഇൻഫോർമാറ്റിക്സ്, ഉദാ., NGS DNA sequencing BarraCUDA
- ഡിസ്ട്രിബ്യൂട്ടഡ് കണക്കുകൂട്ടലുകൾ, പ്രോട്ടീനുകളുടെ നേറ്റീവ് കോൺഫോർമേഷൻ പ്രവചിക്കുന്നത് പോലെയുള്ള
- മെഡിക്കൽ അനാലിസിസ് സിമുലേഷനുകൾ, ഉദാഹരണത്തിന്, CT, MRI സ്കാൻ ഇമേജുകൾ അടിസ്ഥാനമാക്കിയുള്ള വെർച്വൽ റിയാലിറ്റി
- ഫിസിക്കൽ സിമുലേഷനുകൾ, പ്രത്യേകിച്ച് ഫ്ലൂയിഡ് ഡൈനാമിക്സിൽ
- മെഷീൻ ലേണിംഗ് പ്രശ്നങ്ങളിലെ ന്യൂറൽ നെറ്റ്വർക്ക് പരിശീലനം
- മുഖം തിരിച്ചറിയൽ
- വിതരണം ചെയ്ത കമ്പ്യൂട്ടിംഗ് പ്രോജക്റ്റുകൾ, [ഇമെയിൽ പ്രൊട്ടക്റ്റഡ്] പോലെയുള്ള മറ്റ് പ്രോജക്റ്റുകൾ BOINC
- മോളിക്യുലാർ ഡൈനാമിക്സ്
- മൈനിംഗ് ക്രിപ്റ്റോകറൻസികൾ
- സ്ട്രക്ചർ ഫ്രം മോഷൻ (SfM) സോഫ്റ്റ്വെയർ
എന്താണ് ടെൻസർ കോർ?
ടെൻസർ കോറുകൾ എന്ന് വിളിക്കപ്പെടുന്ന പ്രത്യേക കോറുകൾ മിക്സഡ്-പ്രിസിഷൻ ട്രെയിനിംഗ് അനുവദിക്കുന്നു. ഈ സ്പെഷ്യലൈസ്ഡ് കോറുകളുടെ പ്രാരംഭ തലമുറ ഇത് ഒരു ഫ്യൂസ്ഡ് മൾട്ടിപ്ലൈ ആഡ് അൽഗോരിതം ഉപയോഗിച്ചാണ് ചെയ്യുന്നത്. ഒരു 4 x 4 FP16 അല്ലെങ്കിൽ FP32 മാട്രിക്സിലേക്ക് രണ്ട് 4 x 4 FP16 മെട്രിക്സുകൾ വർദ്ധിപ്പിക്കാനും ചേർക്കാനും ഇത് സാധ്യമാക്കുന്നു.
ആത്യന്തിക ഫലം FP32 ആയിരിക്കും, സൂക്ഷ്മതയിൽ നേരിയ നഷ്ടം മാത്രമേ ഉണ്ടാകൂ, മിക്സഡ് പ്രിസിഷൻ കമ്പ്യൂട്ടിംഗ് അങ്ങനെയാണ് നിയുക്തമാക്കിയിരിക്കുന്നത്.ഇൻപുട്ട് മെട്രിക്സ് കുറഞ്ഞ കൃത്യതയുള്ള FP16 ആയിരിക്കാം.
പ്രായോഗികമായി, ഇത് മോഡലിന്റെ അന്തിമ ഫലപ്രാപ്തിയിൽ കാര്യമായ സ്വാധീനം ചെലുത്താതെ കണക്കുകൂട്ടലുകളെ ഗണ്യമായി വേഗത്തിലാക്കുന്നു. ഈ ശേഷി പിന്നീടുള്ള മൈക്രോ ആർക്കിടെക്ചറുകളാൽ കുറച്ചുകൂടി കൃത്യമായ കമ്പ്യൂട്ടർ നമ്പർ പ്രാതിനിധ്യത്തിലേക്ക് വിപുലീകരിച്ചു.
V100-ൽ ആരംഭിക്കുന്ന വോൾട്ട മൈക്രോ ആർക്കിടെക്ചറോടെയാണ് ആദ്യ തലമുറ അവതരിപ്പിച്ചത്, ഓരോ തലമുറ കടന്നുപോകുമ്പോഴും പുതിയ GPU മൈക്രോ ആർക്കിടെക്ചറുകൾ ഉപയോഗിച്ച് കൂടുതൽ കമ്പ്യൂട്ടർ നമ്പർ പ്രിസിഷൻ ഫോർമാറ്റുകൾ ലഭ്യമാക്കി.
ഓരോ മൈക്രോ ആർക്കിടെക്ചർ ജനറേഷനും ടെൻസർ കോറുകളുടെ ശേഷിയും പ്രവർത്തനവും എങ്ങനെ മാറുകയും മെച്ചപ്പെടുത്തുകയും ചെയ്തു എന്നതിനെക്കുറിച്ച് ഞങ്ങൾ ഇനിപ്പറയുന്ന വിഭാഗത്തിൽ സംസാരിക്കും.
ടൈറ്റൻ വി സൃഷ്ടിച്ച ഗ്രാഫിക്കലി റെൻഡർ ചെയ്ത ചിത്രം
ടെൻസർ കോറുകൾ എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?
ആദ്യ തലമുറ:
വോൾട്ട ജിപിയു മൈക്രോ ആർക്കിടെക്ചർ ടെൻസർ കോറുകളുടെ ആദ്യ തലമുറയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഈ കോറുകൾ മിക്സഡ് പ്രിസിഷനും FP16 നമ്പർ ഫോർമാറ്റും ഉപയോഗിച്ച് പരിശീലനം സാധ്യമാക്കി.
ചില GPU-കൾക്കുള്ള ടെറാഫ്ലോപ്പ് ത്രൂപുട്ടിൽ ഇതിന് 12x വരെ ബൂസ്റ്റ് ഉണ്ടായേക്കാം. മുൻ തലമുറയിലെ പാസ്കൽ GPU-കളെ അപേക്ഷിച്ച് ടോപ്പ്-ടയർ V100-ന്റെ 640 കോറുകൾ പ്രകടന വേഗതയിൽ 5 മടങ്ങ് വർദ്ധനവ് നൽകുന്നു.
രണ്ടാം തലമുറ:
Turing GPU-കൾ അവതരിപ്പിച്ചതോടെ, ടെൻസർ കോറുകളുടെ രണ്ടാം തലമുറ അവതരിപ്പിച്ചു. Int8, Int4, Int1 എന്നിവ പിന്തുണയ്ക്കുന്ന ടെൻസർ കോർ കൃത്യതകളുടെ പട്ടികയിൽ ചേർത്തു, അവമുമ്പ് FP16 ആയി പരിമിതപ്പെടുത്തിയിരുന്നു.
മിക്സഡ് പ്രിസിഷൻ പരിശീലന നടപടിക്രമങ്ങൾ കാരണം, പാസ്കൽ ജിപിയുവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ജിപിയുവിന്റെ പ്രകടന ത്രൂപുട്ട് 32 മടങ്ങ് വരെ വർദ്ധിച്ചു.
മൂന്നാം തലമുറ:
FP64, TF32, bfloat16 പ്രിസിഷൻ എന്നിവയ്ക്കുള്ള പിന്തുണ ചേർത്ത് വോൾട്ട, ട്യൂറിംഗ് മൈക്രോ ആർക്കിടെക്ചറുകളുടെ മുൻകാല മുന്നേറ്റങ്ങളിൽ ആമ്പിയർ ജിപിയുവിലെ ആർക്കിടെക്ചർ വികസിക്കുന്നു.
ആഴത്തിലുള്ള പഠന പരിശീലനവും അനുമാന പ്രവർത്തനങ്ങളും ഈ അധിക കൃത്യതയുള്ള ഫോർമാറ്റുകൾ വഴി കൂടുതൽ ത്വരിതപ്പെടുത്തുന്നു. ഉദാഹരണത്തിന്, TF32 ഫോർമാറ്റ് FP32-ന് സമാനമായി പ്രവർത്തിക്കുന്നു, അതേസമയം ഒരു കോഡും മാറ്റാതെ തന്നെ 20x സ്പീഡ്അപ്പുകൾ വരെ ഉറപ്പ് നൽകുന്നു.
പിന്നെ, കുറച്ച് വരി കോഡ് ഉപയോഗിച്ച്, യാന്ത്രിക മിക്സഡ് പ്രിസിഷൻ ഇംപ്ലിമെന്റേഷൻ പരിശീലനത്തെ 2 മടങ്ങ് വേഗത്തിലാക്കും.
ആംപിയർ മൈക്രോ ആർക്കിടെക്ചറിന്റെ അധിക വശങ്ങൾ ആണ്. 7> നാലാം തലമുറ:
ഹോപ്പർ മൈക്രോ ആർക്കിടെക്ചർ അടിസ്ഥാനമാക്കിയുള്ള ടെൻസർ കോറുകളുടെ നാലാം തലമുറയുടെ ഭാവി റിലീസ് ആസൂത്രണം ചെയ്തിട്ടുണ്ട്. അടുത്ത H100-ലെ നാലാം തലമുറ ടെൻസർ കോറുകൾ.
ഇത് 2022 മാർച്ചിൽ പുറത്തിറങ്ങുമെന്ന് പ്രതീക്ഷിക്കുന്നു, FP8 പ്രിസിഷൻ ഫോർമാറ്റുകൾ കൈകാര്യം ചെയ്യാൻ കഴിയും, NVIDIA അനുസരിച്ച്, വലിയ ഭാഷാ മോഡലുകൾ "അത്ഭുതപ്പെടുത്തുന്ന 30X കൊണ്ട് ത്വരിതപ്പെടുത്തും. മുൻ തലമുറയെക്കാൾ.”
ഒരു RTX ഗ്രാഫിക്സ് കാർഡ്ടെൻസർ കോറുകൾ അടങ്ങിയിരിക്കുന്നതിനാൽ ഗ്രാഫിക്സ് വളരെ വേഗത്തിൽ റെൻഡർ ചെയ്യാൻ ഉപയോഗിക്കുന്നു.
CUDA കോറുകളും ടെൻസർ കോറുകളും തമ്മിലുള്ള വ്യത്യാസം
ടെൻസർ കോറുകൾ നിലവിൽ Titan V, Tesla V100 എന്നിവയിൽ പരിമിതപ്പെടുത്തിയിരിക്കുന്നു. രണ്ട് GPU-കളിലെയും 5120 CUDA കോറുകൾക്ക് ഒരു GPU ക്ലോക്കിൽ (ഉദാഹരണത്തിന്, Tesla V100 PCIe ഫ്രീക്വൻസി 1.38Gz ആണ്) പരമാവധി ഒറ്റ പ്രിസിഷൻ മൾട്ടിപ്ലൈ-അക്യുമുലേറ്റ് ഓപ്പറേഷൻ (ഉദാഹരണത്തിന്, fp32: x += y * z) ശേഷിയുണ്ട്.
ഓരോ ടെൻസർ കോറും ചെറിയ മെട്രിക്സുകൾക്കായി 4×4 ചെറിയ മെട്രിക്സുകളിൽ പ്രവർത്തിക്കുന്നു. ഒരു GPU ക്ലോക്കിന്, ഓരോ ടെൻസർ കോറിനും ഒരു മാട്രിക്സ് മൾട്ടിപ്ലൈ-അക്മുലേറ്റ് പ്രവർത്തനം പൂർത്തിയാക്കാൻ കഴിയും.
ഇത് രണ്ട് 4×4 FP16 മെട്രിക്സുകളെ ഗുണിക്കുകയും 4×4 FP32 മാട്രിക്സ് ചേർക്കുകയും ചെയ്യുന്നു, അത് അക്യുമുലേറ്ററിന് കാരണമാകുന്നു (അതും ഒരു fp32 4×4 മാട്രിക്സ് ആണ്).
ഇതും കാണുക: 1/1000 എന്നും 1:1000 എന്നും പറയുന്നതിനുള്ള പ്രധാന വ്യത്യാസം എന്താണ്? (ചോദ്യം പരിഹരിച്ചു) - എല്ലാ വ്യത്യാസങ്ങളുംഇൻപുട്ട് മെട്രിക്സുകൾ fp16 ആയതിനാൽ ഗുണന ഫലങ്ങളും അക്യുമുലേറ്ററും fp32 ആയതിനാൽ, അൽഗോരിതം മിക്സഡ് പ്രിസിഷൻ എന്നാണ് അറിയപ്പെടുന്നത്.
ശരിയായ പദം "4×4 മാട്രിക്സ് കോറുകൾ" മാത്രമായിരിക്കാം, എന്നാൽ എൻവിഡിയ മാർക്കറ്റിംഗ് ടീം "ടെൻസർ കോറുകൾ" ഉപയോഗിക്കാൻ തിരഞ്ഞെടുത്തു.
ടെൻസർ കോറുകളുടെ പൂർണ്ണ വിശദീകരണം ചുരുക്കത്തിൽ
GPU കാർഡ് | CUDA കോറുകൾ | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB |
GeForce GTX 1660 Super | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 Super | 1408 | 4GB |
GeForce GTX 1650 | 1024 ഒപ്പം896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
GeForce GTX 1060 6GB | 768 | 6GB |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
GeForce GTX 1050 (2GB) | 640 | 3GB |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB അല്ലെങ്കിൽ 2 GB |
CUDA കോറുകൾ അടങ്ങിയിരിക്കുന്ന GPU-കൾ
ഉപസംഹാരം
- CUDA, Tensor cores എന്നിവ എൻവിഡിയ എന്ന കമ്പനി വികസിപ്പിച്ച ഉൽപ്പന്നങ്ങളാണ്. CUDA എന്നാൽ കമ്പ്യൂട്ട് യൂണിഫൈഡ് ഡിവൈസ് ആർക്കിടെക്ചർ. ഈ CUDA കോറുകൾ നിങ്ങളുടെ GPU-കളിലും സ്മാർട്ട്ഫോണുകളിലും നിങ്ങളുടെ കാറുകളിലും ഉണ്ട്.
- എൻവിഡിയ വികസിപ്പിച്ചെടുത്ത ടെൻസർ കോറുകൾ GPU-കളിലും ഉപയോഗിക്കുന്നു. "ടെൻസർ കോറുകൾ" എന്ന് വിളിക്കപ്പെടുന്ന പ്രത്യേക കോറുകൾ മിക്സഡ്-പ്രിസിഷൻ ട്രെയിനിംഗ് അനുവദിക്കുന്നു. ആദ്യ തലമുറ ടെൻസർ കോറുകൾ മിക്സഡ് പ്രിസിഷനും FP16 നമ്പർ ഫോർമാറ്റും ഉപയോഗിച്ച് പരിശീലനം സാധ്യമാക്കി.
- ഇതിന് ചില GPU-കൾക്കായി teraFLOP ത്രൂപുട്ടിൽ 12x വരെ ബൂസ്റ്റ് ഉണ്ടായേക്കാം. Int8, Int4, Int1 എന്നിവ പിന്തുണയ്ക്കുന്ന ടെൻസർ കോർ കൃത്യതകളുടെ പട്ടികയിൽ ചേർത്തു.
- മിശ്രണം കാരണംകൃത്യമായ പരിശീലന നടപടിക്രമങ്ങൾ, ജിപിയുവിന്റെ പ്രകടനം 32 മടങ്ങ് വരെ വർദ്ധിച്ചു. ഹോപ്പർ മൈക്രോ ആർക്കിടെക്ചർ അടിസ്ഥാനമാക്കിയുള്ള ടെൻസർ കോറുകളുടെ നാലാം തലമുറയുടെ ഭാവി റിലീസ് ആസൂത്രണം ചെയ്തിട്ടുണ്ട്.