CUDA Cores සහ Tensor Cores අතර වෙනස කුමක්ද? (පැහැදිලි කර ඇත) - සියලු වෙනස්කම්

01-08-202301-08-2023 Mary Davis

අන්තර්ගත වගුව

CUDA සහ Tensor cores යනු Nvidia නම් සමාගමක් විසින් වැඩි දියුණු කරන ලද නිෂ්පාදන වේ. ඉතින් CUDA cores සහ Tensor cores යනු කුමක්ද? CUDA යනු Compute Unified Device Architecture යන්නයි. Nvidia සංවර්ධකයින් පවසන පරිදි CUDA හරය ඔබගේ GPU, ස්මාර්ට්ෆෝන් සහ ඔබේ මෝටර් රථවල පවා පවතී.

CUDA cores යනු සමාන්තර පරිගණක වේදිකාවක් සහ යෙදුම් ක්‍රමලේඛන අතුරුමුහුණතක් (API) වන අතර එය සාමාන්‍ය කාර්ය සැකසුම් සඳහා විශේෂිත ග්‍රැෆික් සැකසුම් ඒකක (GPUs) භාවිතා කිරීමට මෘදුකාංගයට හැකියාව ලබා දෙයි.

එමෙන්ම Nvidia විසින් සංවර්ධනය කරන ලද ටෙන්සර් කෝර් GPU වලද භාවිතා වේ. Tensor Cores මිශ්‍ර-නිරවද්‍ය පරිගණනය සක්‍රීය කරයි, නිරවද්‍යතාවය පවත්වා ගනිමින් ප්‍රතිදානය වැඩි කිරීමට ගතිකව ගණනය කිරීම් අනුවර්තනය කරයි.

සරල වචන වලින් කිවහොත්, මෙම මධ්‍යයන් ඔබේ පරිගණකයේ ඇති GPU වල යම් යම් ගණනය කිරීම් සිදු කිරීමට වැදගත් කොටසකි. CUDA cores භාවිතා කරන්නේ සංඛ්‍යා දෙකක් ගුණ කර වෙනත් සංඛ්‍යාවකට එකතු කිරීමටයි.

Tensor core එක සමාන වන නමුත් 4×4 matrices සමඟින්. මෙම ගණනය කිරීම් මූලික වශයෙන් ඔබට ග්‍රැෆික්ස් වේගවත් කරයි.

CUDA යනු කුමක්ද?

2007 ජූනි 23 දින නිකුත් කරන ලද Nvidia විසින් සංවර්ධනය කරන ලද කෙටි CUDA හි Compute Unified Device Architecture, සමාන්තර පරිගණක වේදිකාවක් සහ යෙදුම් ක්‍රමලේඛන අතුරු මුහුණතක් (API) වේ.

එය. සාමාන්‍ය කාර්ය සැකසුම් සඳහා විශේෂිත ග්‍රැෆික් සැකසුම් ඒකක (GPU) භාවිතා කිරීමට මෘදුකාංගයට හැකියාව ලබා දෙයි, එය සාමාන්‍ය පරිගණනය ලෙස හඳුන්වන ක්‍රමයකි.GPUs (GPU).

CUDA යනු GPU හි අතථ්‍ය උපදෙස් කට්ටලයට සහ පරිගණක කර්නල් ක්‍රියාත්මක කිරීම සඳහා සමාන්තර පරිගණක මූලද්‍රව්‍ය වෙත සෘජු ප්‍රවේශය සපයන මෘදුකාංග ස්ථරයකි. C, C++, සහ Fortran ඇතුළු විවිධ ක්‍රමලේඛන භාෂා සමඟ වැඩ කිරීමට CUDA සංවර්ධනය කරන ලදී.

විවිධ ක්‍රමලේඛන භාෂා සමඟ ක්‍රියා කිරීමේ හැකියාව සමාන්තර ක්‍රමලේඛනයේ විශේෂඥයින්ට GPU සම්පත් භාවිතා කිරීම පහසු කරයි, අපි එය Direct3D හෝ OpenGL වැනි පෙර API වලින් වෙනස් කළහොත්, ඔබට වඩාත් දියුණු එකක් තිබීම අවශ්‍ය වේ. චිත්රක වැඩසටහන්කරණයේ කුසලතා පදනම.

CUDA සමඟින් GPU OpenMP, OpenACC, OpenCL සහ HIP වැනි ක්‍රමලේඛන රාමු සඳහා සහය දක්වයි. CUDA සඳහා භාවිතා කරන ලද පළමු නම Compute Unified Device Architecture යන්නෙහි කෙටි යෙදුමකි. කෙසේ වෙතත්, Nvidia පසුව බහුලව භාවිතා වන කෙටි යෙදුම අතහැර දැමීය.

ප්‍රබල Nvidia Graphics කාඩ්පතක් GTX 1080 Ti

CUDA ගැන වැඩි විස්තර

විශේෂිත පරිගණක ප්‍රොසෙසරයක් ලෙස, ග්‍රැෆික් සැකසුම් ඒකකය (GPU) සැබෑ අවශ්‍යතා සපුරාලයි -time, compute-intensive 3D graphics workloads.

බලන්න: ආදිපාදවරයා සහ කුමාරයා අතර වෙනස (රාජකීය කතාව) - සියලු වෙනස්කම්

2012 දී පමණ GPU පරිණාමය වූ අතර විශාල කොටස් සඳහා ඵලදායී දත්ත සැකසීමට හැකි වන පරිදි ඉතා සමාන්තර බහු-core පද්ධති බවට පත් විය.

සමාන්තරව විශාල දත්ත කොටස් සකසන විට, මෙම සැලසුම ඇල්ගොරිතම සඳහා සාමාන්‍ය කාර්ය මධ්‍යම සැකසුම් ඒකක (CPUs) වලට වඩා උසස් වේ, එනම්:

ගුප්ත ලේඛන හැෂ්කාර්යයන්
යන්ත්‍ර ඉගෙනීම
අණුක ගතික සමාකරණ
භෞතික යන්ත්‍ර
ඇල්ගොරිතම වර්ග කිරීම

CUDA ගෘහ නිර්මාණ ශිල්පයේ භාවිතයන් දැන් සහ අනාගතයේදී

ත්‍රිමාණ ග්‍රැෆික්ස්වල වේගවත් විදැහුම්කරණය
වීඩියෝ ගොනු ආකෘතිවල වේගවත් අන්තර් පරිවර්තනය
වේගවත් සංකේතනය, විකේතනය සහ සම්පීඩනය
ජීව තොරතුරු, උදා., NGS DNA අනුක්‍රමණය BarraCUDA
ප්‍රෝටීන වල ස්වදේශීය අනුකූලතාව පුරෝකථනය කිරීම වැනි බෙදා හරින ලද ගණනය කිරීම්
වෛද්‍ය විශ්ලේෂණ සමාකරණ, උදාහරණයක් ලෙස, CT සහ MRI ස්කෑන් රූප මත පදනම් වූ අතථ්‍ය යථාර්ථය
භෞතික සමාකරණ, විශේෂයෙන්ම තරල ගතිකත්වය තුළ
යන්ත්‍ර ඉගෙනීමේ ගැටළු වල ස්නායු ජාල පුහුණුව
මුහුණු හඳුනාගැනීම
බෙදාහැරි පරිගණක ව්‍යාපෘති, එනම් [ඊමේල් ආරක්ෂිත] සහ භාවිතා කරන වෙනත් ව්‍යාපෘති BOINC
අණුක ගතිකත්වය
Mining cryptocurrencies
ව්‍යුහය සිට චලිතය (SfM) මෘදුකාංගය

Tensor Core යනු කුමක්ද?

ටෙන්සර් කෝර් ලෙස හැඳින්වෙන විශේෂිත හරයන් මිශ්‍ර-නිශ්චිත පුහුණුව සඳහා ඉඩ සලසයි. මෙම විශේෂිත මධ්‍යයේ මුල් පරම්පරාව මෙය සිදු කරන්නේ විලයන ලද ගුණ-එකතු කිරීමේ ඇල්ගොරිතමයකිනි. මෙමගින් 4 x 4 FP16 න්‍යාස දෙකක් 4 x 4 FP16 හෝ FP32 න්‍යාසයකට ගුණ කිරීමට සහ එකතු කිරීමට හැකි වේ.

අවසාන ප්‍රති result ලය වනුයේ FP32 වන අතර, නිරවද්‍යතාවයේ සුළු පාඩුවක් පමණි, මිශ්‍ර නිරවද්‍යතා පරිගණනය එසේ වුවද නම් කර ඇත.ආදාන න්‍යාසය අඩු නිරවද්‍ය FP16 විය හැක.

ප්‍රායෝගිකව, මෙය ආකෘතියේ අවසාන සඵලතාවයට සුළු බලපෑමක් ඇතිව ගණනය කිරීම් සැලකිය යුතු ලෙස වේගවත් කරයි. මෙම ධාරිතාව පසුකාලීන ක්ෂුද්‍ර ගෘහ නිර්මාණ ශිල්පය මගින් ඊටත් වඩා අඩු නිරවද්‍ය පරිගණක සංඛ්‍යා නිරූපණයන් දක්වා පුළුල් කර ඇත.

පළමු පරම්පරාව V100 න් ආරම්භ වන Volta microarchitecture සමඟ හඳුන්වා දෙන ලදී, එක් එක් පරම්පරාව සමඟ නව GPU microarchitectures සමඟ ගණනය කිරීම සඳහා තවත් පරිගණක අංක නිරවද්‍ය ආකෘති ලබා දෙන ලදී.

Tensor Cores හි ධාරිතාව සහ ක්‍රියාකාරීත්වය එක් එක් ක්ෂුද්‍ර ගෘහ නිර්මාණ උත්පාදනය සමඟ වෙනස් වී වැඩිදියුණු වී ඇති ආකාරය ගැන අපි පහත කොටසේ කතා කරමු.

Titan V මගින් සාදන ලද චිත්‍රක ලෙස නිරූපණය කරන ලද රූපයක්

Tensor Cores ක්‍රියා කරන්නේ කෙසේද?

පළමු පරම්පරාව:

Volta GPU microarchitecture පළමු පරම්පරාවේ Tensor Cores සමඟ ඇතුළත් විය. මෙම හරයන් මිශ්‍ර නිරවද්‍යතාවයකින් සහ FP16 අංක ආකෘතියෙන් පුහුණු කිරීමට හැකි විය.

මෙය ඇතැම් GPU සඳහා teraFLOP ප්‍රතිදානයේ 12x දක්වා වැඩි කිරීමක් තිබිය හැක. Top-tier V100 හි 640 cores පෙර පරම්පරාවේ Pascal GPU වලට වඩා කාර්ය සාධන වේගය 5x දක්වා වැඩි කරයි.

දෙවන පරම්පරාව:

Turing GPUs හඳුන්වාදීමත් සමඟ, Tensor Cores දෙවන පරම්පරාව හඳුන්වා දෙන ලදී. Int8, Int4, සහ Int1 සහය දක්වන Tensor Core නිරවද්‍යතා ලැයිස්තුවට එකතු කරන ලදී.පෙර FP16 වෙත සීමා විය.

මිශ්‍ර නිරවද්‍යතා පුහුණු ක්‍රියා පටිපාටි හේතුවෙන්, පැස්කල් GPU වලට සාපේක්ෂව GPU හි කාර්ය සාධන ප්‍රතිදානය 32 ගුණයකින් වැඩි විය.

තුන්වන පරම්පරාව:

Ampere GPU එකක ගෘහනිර්මාණ ශිල්පය FP64, TF32, සහ bfloat16 නිරවද්‍යතා සඳහා සහය එක් කිරීමෙන් Volta සහ Turing microarchitectures හි පෙර දියුණුව මත පුළුල් වේ.

බලන්න: ජර්මානු යෞවනයන්ගේ ජීවිතය: මැදපෙරදිග ඇමරිකාවේ සහ වයඹදිග ජර්මනියේ යොවුන් වියේ සංස්කෘතිය සහ සමාජ ජීවිතය අතර වෙනස්කම් (පැහැදිලි කර ඇත) - සියලු වෙනස්කම්

ගැඹුරු ඉගෙනුම් පුහුණුව සහ අනුමාන ක්‍රියාකාරකම් මෙම අමතර නිරවද්‍යතා ආකෘති මගින් වඩාත් වේගවත් වේ. උදාහරණයක් ලෙස, TF32 ආකෘතිය FP32 හා සමානව ක්‍රියා කරන අතර කිසිදු කේතයක් වෙනස් නොකර 20x දක්වා වේගවත් කිරීම් සහතික කරයි.

ඉන්පසු, කේත පේළි කිහිපයක් සමඟින්, ස්වයංක්‍රීය මිශ්‍ර නිරවද්‍යතා ක්‍රියාත්මක කිරීම අමතර 2x කින් පුහුණුව වේගවත් කරයි.

දැවෙන වේගවත් බහු-GPU අන්තර්ක්‍රියා සක්‍රීය කිරීමට තුන්වන පරම්පරාවේ NVLink, තුන්වන පරම්පරාවේ Ray Tracing cores සහ විරල න්‍යාස ගණිතය සමඟ විශේෂීකරණය Ampere microarchitecture හි අමතර අංග වේ .

හතරවන පරම්පරාව:

Hopper microarchitecture මත පදනම් වූ Tensor Cores හි සිව්වන පරම්පරාවේ අනාගත නිකුතුවක් සැලසුම් කර ඇත. මීළඟ H100 හි සිව්වන පරම්පරාවේ Tensor Cores.

එය 2022 මාර්තු මාසයේදී නිකුත් කිරීමට බලාපොරොත්තු වන අතර, FP8 නිරවද්‍ය ආකෘති හැසිරවීමට හැකි වන අතර NVIDIA ට අනුව, අතිවිශාල භාෂා ආකෘති “විස්මිත 30X කින් වේගවත් කරනු ඇත. පෙර පරම්පරාවට වඩා.”

RTX ග්‍රැෆික් කාඩ්පතකිඑහි ටෙන්සර් කෝර් අඩංගු බැවින් ඉතා වේගයෙන් ග්‍රැෆික්ස් විදැහුම්කරණය සඳහා භාවිතා වේ.

CUDA Cores සහ Tensor Cores අතර වෙනස

Tensor cores දැනට Titan V සහ Tesla V100 වලට සීමා වේ. GPU දෙකෙහිම ඇති 5120 CUDA cores එක GPU ඔරලෝසුවකට (උදා: Tesla V100 PCIe සංඛ්‍යාතය 1.38Gz) එක් නිරවද්‍යතාවයකින් ගුණ කිරීමේ සමුච්චය කිරීමේ මෙහෙයුමක (උදාහරණයක් ලෙස, fp32: x += y * z) උපරිම ධාරිතාවක් ඇත.

එක් එක් ආතති හරය කුඩා න්‍යාස සඳහා 4×4 කුඩා න්‍යාස මත ක්‍රියා කරයි. එක් GPU ඔරලෝසුවකට, සෑම ටෙන්සර් කෝර් එකකටම එක් අනුකෘති ගුණකිරීම් සමුච්චය කිරීමේ මෙහෙයුම සම්පූර්ණ කළ හැක.

එය 4×4 FP16 න්‍යාස දෙකක් ගුණ කරන අතර 4×4 FP32 න්‍යාසය එකතු කරන අතර එය සමුච්චකය (එයද fp32 4×4 න්‍යාසයකි).

ආදාන න්‍යාස fp16 වන අතර ගුණ කිරීමේ ප්‍රතිඵල සහ සමුච්චකය fp32 බැවින් ඇල්ගොරිතම මිශ්‍ර නිරවද්‍යතාවය ලෙස හැඳින්වේ.

නිවැරදි යෙදුම “4×4 matrix cores” පමණක් විය හැකි නමුත් NVIDIA අලෙවිකරණ කණ්ඩායම “ටෙන්සර් කෝර්” භාවිතා කිරීමට තෝරාගෙන ඇත.

ටෙන්සර් කෝර්ස් සම්පූර්ණ පැහැදිලි කිරීම කෙටියෙන්

16>

GPU කාඩ්පත	CUDA cores	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 Super	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 සහ896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB හෝ 2 GB

CUDA cores අඩංගු GPUs

නිගමනය

CUDA සහ Tensor cores යනු Nvidia නම් සමාගමක් විසින් සංවර්ධනය කරන ලද නිෂ්පාදන වේ. CUDA යනු Compute Unified Device Architecture යන්නයි. මෙම CUDA හරයන් ඔබගේ GPU වල, ස්මාර්ට් ෆෝන් වල සහ ඔබගේ මෝටර් රථවල පවා පවතී.
එමෙන්ම Nvidia විසින් ද සංවර්ධනය කරන ලද ටෙන්සර් කෝර් GPU වලද භාවිතා වේ. "ටෙන්සර් කෝර්" ලෙස හඳුන්වන විශේෂිත හරයන් මිශ්‍ර-නිරවද්‍ය පුහුණුව සඳහා ඉඩ සලසයි. පළමු පරම්පරාවේ Tensor Cores මිශ්‍ර නිරවද්‍යතාවයකින් සහ FP16 අංක ආකෘතියෙන් පුහුණු කිරීමට හැකි විය.
මෙය ඇතැම් GPU සඳහා teraFLOP ප්‍රතිදානයේ 12x දක්වා වැඩි කිරීමක් තිබිය හැක. Int8, Int4 සහ Int1 සහය දක්වන Tensor Core නිරවද්‍යතා ලැයිස්තුවට එක් කරන ලදී.
මිශ්‍ර නිසානිරවද්‍ය පුහුණු ක්‍රියා පටිපාටි, GPU හි කාර්ය සාධනය 32 ගුණයකින් වැඩි විය. Hopper microarchitecture මත පදනම් වූ Tensor Cores හි සිව්වන පරම්පරාවේ අනාගත නිකුතුවක් සැලසුම් කර ඇත.

#SNIGCONSULTANCY