CUDA Cores සහ Tensor Cores අතර වෙනස කුමක්ද? (පැහැදිලි කර ඇත) - සියලු වෙනස්කම්
අන්තර්ගත වගුව
CUDA සහ Tensor cores යනු Nvidia නම් සමාගමක් විසින් වැඩි දියුණු කරන ලද නිෂ්පාදන වේ. ඉතින් CUDA cores සහ Tensor cores යනු කුමක්ද? CUDA යනු Compute Unified Device Architecture යන්නයි. Nvidia සංවර්ධකයින් පවසන පරිදි CUDA හරය ඔබගේ GPU, ස්මාර්ට්ෆෝන් සහ ඔබේ මෝටර් රථවල පවා පවතී.
CUDA cores යනු සමාන්තර පරිගණක වේදිකාවක් සහ යෙදුම් ක්රමලේඛන අතුරුමුහුණතක් (API) වන අතර එය සාමාන්ය කාර්ය සැකසුම් සඳහා විශේෂිත ග්රැෆික් සැකසුම් ඒකක (GPUs) භාවිතා කිරීමට මෘදුකාංගයට හැකියාව ලබා දෙයි.
එමෙන්ම Nvidia විසින් සංවර්ධනය කරන ලද ටෙන්සර් කෝර් GPU වලද භාවිතා වේ. Tensor Cores මිශ්ර-නිරවද්ය පරිගණනය සක්රීය කරයි, නිරවද්යතාවය පවත්වා ගනිමින් ප්රතිදානය වැඩි කිරීමට ගතිකව ගණනය කිරීම් අනුවර්තනය කරයි.
සරල වචන වලින් කිවහොත්, මෙම මධ්යයන් ඔබේ පරිගණකයේ ඇති GPU වල යම් යම් ගණනය කිරීම් සිදු කිරීමට වැදගත් කොටසකි. CUDA cores භාවිතා කරන්නේ සංඛ්යා දෙකක් ගුණ කර වෙනත් සංඛ්යාවකට එකතු කිරීමටයි.
Tensor core එක සමාන වන නමුත් 4×4 matrices සමඟින්. මෙම ගණනය කිරීම් මූලික වශයෙන් ඔබට ග්රැෆික්ස් වේගවත් කරයි.
CUDA යනු කුමක්ද?
2007 ජූනි 23 දින නිකුත් කරන ලද Nvidia විසින් සංවර්ධනය කරන ලද කෙටි CUDA හි Compute Unified Device Architecture, සමාන්තර පරිගණක වේදිකාවක් සහ යෙදුම් ක්රමලේඛන අතුරු මුහුණතක් (API) වේ.
එය. සාමාන්ය කාර්ය සැකසුම් සඳහා විශේෂිත ග්රැෆික් සැකසුම් ඒකක (GPU) භාවිතා කිරීමට මෘදුකාංගයට හැකියාව ලබා දෙයි, එය සාමාන්ය පරිගණනය ලෙස හඳුන්වන ක්රමයකි.GPUs (GPU).
CUDA යනු GPU හි අතථ්ය උපදෙස් කට්ටලයට සහ පරිගණක කර්නල් ක්රියාත්මක කිරීම සඳහා සමාන්තර පරිගණක මූලද්රව්ය වෙත සෘජු ප්රවේශය සපයන මෘදුකාංග ස්ථරයකි. C, C++, සහ Fortran ඇතුළු විවිධ ක්රමලේඛන භාෂා සමඟ වැඩ කිරීමට CUDA සංවර්ධනය කරන ලදී.
විවිධ ක්රමලේඛන භාෂා සමඟ ක්රියා කිරීමේ හැකියාව සමාන්තර ක්රමලේඛනයේ විශේෂඥයින්ට GPU සම්පත් භාවිතා කිරීම පහසු කරයි, අපි එය Direct3D හෝ OpenGL වැනි පෙර API වලින් වෙනස් කළහොත්, ඔබට වඩාත් දියුණු එකක් තිබීම අවශ්ය වේ. චිත්රක වැඩසටහන්කරණයේ කුසලතා පදනම.
CUDA සමඟින් GPU OpenMP, OpenACC, OpenCL සහ HIP වැනි ක්රමලේඛන රාමු සඳහා සහය දක්වයි. CUDA සඳහා භාවිතා කරන ලද පළමු නම Compute Unified Device Architecture යන්නෙහි කෙටි යෙදුමකි. කෙසේ වෙතත්, Nvidia පසුව බහුලව භාවිතා වන කෙටි යෙදුම අතහැර දැමීය.
ප්රබල Nvidia Graphics කාඩ්පතක් GTX 1080 Ti
CUDA ගැන වැඩි විස්තර
විශේෂිත පරිගණක ප්රොසෙසරයක් ලෙස, ග්රැෆික් සැකසුම් ඒකකය (GPU) සැබෑ අවශ්යතා සපුරාලයි -time, compute-intensive 3D graphics workloads.
බලන්න: ආදිපාදවරයා සහ කුමාරයා අතර වෙනස (රාජකීය කතාව) - සියලු වෙනස්කම්2012 දී පමණ GPU පරිණාමය වූ අතර විශාල කොටස් සඳහා ඵලදායී දත්ත සැකසීමට හැකි වන පරිදි ඉතා සමාන්තර බහු-core පද්ධති බවට පත් විය.
සමාන්තරව විශාල දත්ත කොටස් සකසන විට, මෙම සැලසුම ඇල්ගොරිතම සඳහා සාමාන්ය කාර්ය මධ්යම සැකසුම් ඒකක (CPUs) වලට වඩා උසස් වේ, එනම්:
- ගුප්ත ලේඛන හැෂ්කාර්යයන්
- යන්ත්ර ඉගෙනීම
- අණුක ගතික සමාකරණ
- භෞතික යන්ත්ර
- ඇල්ගොරිතම වර්ග කිරීම
CUDA ගෘහ නිර්මාණ ශිල්පයේ භාවිතයන් දැන් සහ අනාගතයේදී
- ත්රිමාණ ග්රැෆික්ස්වල වේගවත් විදැහුම්කරණය
- වීඩියෝ ගොනු ආකෘතිවල වේගවත් අන්තර් පරිවර්තනය
- වේගවත් සංකේතනය, විකේතනය සහ සම්පීඩනය
- ජීව තොරතුරු, උදා., NGS DNA අනුක්රමණය BarraCUDA
- ප්රෝටීන වල ස්වදේශීය අනුකූලතාව පුරෝකථනය කිරීම වැනි බෙදා හරින ලද ගණනය කිරීම්
- වෛද්ය විශ්ලේෂණ සමාකරණ, උදාහරණයක් ලෙස, CT සහ MRI ස්කෑන් රූප මත පදනම් වූ අතථ්ය යථාර්ථය
- භෞතික සමාකරණ, විශේෂයෙන්ම තරල ගතිකත්වය තුළ
- යන්ත්ර ඉගෙනීමේ ගැටළු වල ස්නායු ජාල පුහුණුව
- මුහුණු හඳුනාගැනීම
- බෙදාහැරි පරිගණක ව්යාපෘති, එනම් [ඊමේල් ආරක්ෂිත] සහ භාවිතා කරන වෙනත් ව්යාපෘති BOINC
- අණුක ගතිකත්වය
- Mining cryptocurrencies
- ව්යුහය සිට චලිතය (SfM) මෘදුකාංගය
Tensor Core යනු කුමක්ද?
ටෙන්සර් කෝර් ලෙස හැඳින්වෙන විශේෂිත හරයන් මිශ්ර-නිශ්චිත පුහුණුව සඳහා ඉඩ සලසයි. මෙම විශේෂිත මධ්යයේ මුල් පරම්පරාව මෙය සිදු කරන්නේ විලයන ලද ගුණ-එකතු කිරීමේ ඇල්ගොරිතමයකිනි. මෙමගින් 4 x 4 FP16 න්යාස දෙකක් 4 x 4 FP16 හෝ FP32 න්යාසයකට ගුණ කිරීමට සහ එකතු කිරීමට හැකි වේ.
අවසාන ප්රති result ලය වනුයේ FP32 වන අතර, නිරවද්යතාවයේ සුළු පාඩුවක් පමණි, මිශ්ර නිරවද්යතා පරිගණනය එසේ වුවද නම් කර ඇත.ආදාන න්යාසය අඩු නිරවද්ය FP16 විය හැක.
ප්රායෝගිකව, මෙය ආකෘතියේ අවසාන සඵලතාවයට සුළු බලපෑමක් ඇතිව ගණනය කිරීම් සැලකිය යුතු ලෙස වේගවත් කරයි. මෙම ධාරිතාව පසුකාලීන ක්ෂුද්ර ගෘහ නිර්මාණ ශිල්පය මගින් ඊටත් වඩා අඩු නිරවද්ය පරිගණක සංඛ්යා නිරූපණයන් දක්වා පුළුල් කර ඇත.
පළමු පරම්පරාව V100 න් ආරම්භ වන Volta microarchitecture සමඟ හඳුන්වා දෙන ලදී, එක් එක් පරම්පරාව සමඟ නව GPU microarchitectures සමඟ ගණනය කිරීම සඳහා තවත් පරිගණක අංක නිරවද්ය ආකෘති ලබා දෙන ලදී.
Tensor Cores හි ධාරිතාව සහ ක්රියාකාරීත්වය එක් එක් ක්ෂුද්ර ගෘහ නිර්මාණ උත්පාදනය සමඟ වෙනස් වී වැඩිදියුණු වී ඇති ආකාරය ගැන අපි පහත කොටසේ කතා කරමු.
Titan V මගින් සාදන ලද චිත්රක ලෙස නිරූපණය කරන ලද රූපයක්
Tensor Cores ක්රියා කරන්නේ කෙසේද?
පළමු පරම්පරාව:
Volta GPU microarchitecture පළමු පරම්පරාවේ Tensor Cores සමඟ ඇතුළත් විය. මෙම හරයන් මිශ්ර නිරවද්යතාවයකින් සහ FP16 අංක ආකෘතියෙන් පුහුණු කිරීමට හැකි විය.
මෙය ඇතැම් GPU සඳහා teraFLOP ප්රතිදානයේ 12x දක්වා වැඩි කිරීමක් තිබිය හැක. Top-tier V100 හි 640 cores පෙර පරම්පරාවේ Pascal GPU වලට වඩා කාර්ය සාධන වේගය 5x දක්වා වැඩි කරයි.
දෙවන පරම්පරාව:
Turing GPUs හඳුන්වාදීමත් සමඟ, Tensor Cores දෙවන පරම්පරාව හඳුන්වා දෙන ලදී. Int8, Int4, සහ Int1 සහය දක්වන Tensor Core නිරවද්යතා ලැයිස්තුවට එකතු කරන ලදී.පෙර FP16 වෙත සීමා විය.
මිශ්ර නිරවද්යතා පුහුණු ක්රියා පටිපාටි හේතුවෙන්, පැස්කල් GPU වලට සාපේක්ෂව GPU හි කාර්ය සාධන ප්රතිදානය 32 ගුණයකින් වැඩි විය.
තුන්වන පරම්පරාව:
Ampere GPU එකක ගෘහනිර්මාණ ශිල්පය FP64, TF32, සහ bfloat16 නිරවද්යතා සඳහා සහය එක් කිරීමෙන් Volta සහ Turing microarchitectures හි පෙර දියුණුව මත පුළුල් වේ.
බලන්න: ජර්මානු යෞවනයන්ගේ ජීවිතය: මැදපෙරදිග ඇමරිකාවේ සහ වයඹදිග ජර්මනියේ යොවුන් වියේ සංස්කෘතිය සහ සමාජ ජීවිතය අතර වෙනස්කම් (පැහැදිලි කර ඇත) - සියලු වෙනස්කම්ගැඹුරු ඉගෙනුම් පුහුණුව සහ අනුමාන ක්රියාකාරකම් මෙම අමතර නිරවද්යතා ආකෘති මගින් වඩාත් වේගවත් වේ. උදාහරණයක් ලෙස, TF32 ආකෘතිය FP32 හා සමානව ක්රියා කරන අතර කිසිදු කේතයක් වෙනස් නොකර 20x දක්වා වේගවත් කිරීම් සහතික කරයි.
ඉන්පසු, කේත පේළි කිහිපයක් සමඟින්, ස්වයංක්රීය මිශ්ර නිරවද්යතා ක්රියාත්මක කිරීම අමතර 2x කින් පුහුණුව වේගවත් කරයි.
දැවෙන වේගවත් බහු-GPU අන්තර්ක්රියා සක්රීය කිරීමට තුන්වන පරම්පරාවේ NVLink, තුන්වන පරම්පරාවේ Ray Tracing cores සහ විරල න්යාස ගණිතය සමඟ විශේෂීකරණය Ampere microarchitecture හි අමතර අංග වේ .
හතරවන පරම්පරාව:
Hopper microarchitecture මත පදනම් වූ Tensor Cores හි සිව්වන පරම්පරාවේ අනාගත නිකුතුවක් සැලසුම් කර ඇත. මීළඟ H100 හි සිව්වන පරම්පරාවේ Tensor Cores.
එය 2022 මාර්තු මාසයේදී නිකුත් කිරීමට බලාපොරොත්තු වන අතර, FP8 නිරවද්ය ආකෘති හැසිරවීමට හැකි වන අතර NVIDIA ට අනුව, අතිවිශාල භාෂා ආකෘති “විස්මිත 30X කින් වේගවත් කරනු ඇත. පෙර පරම්පරාවට වඩා.”
RTX ග්රැෆික් කාඩ්පතකිඑහි ටෙන්සර් කෝර් අඩංගු බැවින් ඉතා වේගයෙන් ග්රැෆික්ස් විදැහුම්කරණය සඳහා භාවිතා වේ.
CUDA Cores සහ Tensor Cores අතර වෙනස
Tensor cores දැනට Titan V සහ Tesla V100 වලට සීමා වේ. GPU දෙකෙහිම ඇති 5120 CUDA cores එක GPU ඔරලෝසුවකට (උදා: Tesla V100 PCIe සංඛ්යාතය 1.38Gz) එක් නිරවද්යතාවයකින් ගුණ කිරීමේ සමුච්චය කිරීමේ මෙහෙයුමක (උදාහරණයක් ලෙස, fp32: x += y * z) උපරිම ධාරිතාවක් ඇත.
එක් එක් ආතති හරය කුඩා න්යාස සඳහා 4×4 කුඩා න්යාස මත ක්රියා කරයි. එක් GPU ඔරලෝසුවකට, සෑම ටෙන්සර් කෝර් එකකටම එක් අනුකෘති ගුණකිරීම් සමුච්චය කිරීමේ මෙහෙයුම සම්පූර්ණ කළ හැක.
එය 4×4 FP16 න්යාස දෙකක් ගුණ කරන අතර 4×4 FP32 න්යාසය එකතු කරන අතර එය සමුච්චකය (එයද fp32 4×4 න්යාසයකි).
ආදාන න්යාස fp16 වන අතර ගුණ කිරීමේ ප්රතිඵල සහ සමුච්චකය fp32 බැවින් ඇල්ගොරිතම මිශ්ර නිරවද්යතාවය ලෙස හැඳින්වේ.
නිවැරදි යෙදුම “4×4 matrix cores” පමණක් විය හැකි නමුත් NVIDIA අලෙවිකරණ කණ්ඩායම “ටෙන්සර් කෝර්” භාවිතා කිරීමට තෝරාගෙන ඇත.
ටෙන්සර් කෝර්ස් සම්පූර්ණ පැහැදිලි කිරීම කෙටියෙන්
GPU කාඩ්පත | CUDA cores | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB | GeForce GTX 1660 Super | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 Super | 1408 | 4GB |
GeForce GTX 1650 | 1024 සහ896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
GeForce GTX 1060 6GB | 768 | 6GB |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
GeForce GTX 1050 (2GB) | 640 | 3GB |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB හෝ 2 GB |
CUDA cores අඩංගු GPUs
නිගමනය
- CUDA සහ Tensor cores යනු Nvidia නම් සමාගමක් විසින් සංවර්ධනය කරන ලද නිෂ්පාදන වේ. CUDA යනු Compute Unified Device Architecture යන්නයි. මෙම CUDA හරයන් ඔබගේ GPU වල, ස්මාර්ට් ෆෝන් වල සහ ඔබගේ මෝටර් රථවල පවා පවතී.
- එමෙන්ම Nvidia විසින් ද සංවර්ධනය කරන ලද ටෙන්සර් කෝර් GPU වලද භාවිතා වේ. "ටෙන්සර් කෝර්" ලෙස හඳුන්වන විශේෂිත හරයන් මිශ්ර-නිරවද්ය පුහුණුව සඳහා ඉඩ සලසයි. පළමු පරම්පරාවේ Tensor Cores මිශ්ර නිරවද්යතාවයකින් සහ FP16 අංක ආකෘතියෙන් පුහුණු කිරීමට හැකි විය.
- මෙය ඇතැම් GPU සඳහා teraFLOP ප්රතිදානයේ 12x දක්වා වැඩි කිරීමක් තිබිය හැක. Int8, Int4 සහ Int1 සහය දක්වන Tensor Core නිරවද්යතා ලැයිස්තුවට එක් කරන ලදී.
- මිශ්ර නිසානිරවද්ය පුහුණු ක්රියා පටිපාටි, GPU හි කාර්ය සාධනය 32 ගුණයකින් වැඩි විය. Hopper microarchitecture මත පදනම් වූ Tensor Cores හි සිව්වන පරම්පරාවේ අනාගත නිකුතුවක් සැලසුම් කර ඇත.