CUDA ڪور ۽ ٽينسر ڪور جي وچ ۾ ڇا فرق آهي؟ (وضاحت) - سڀ فرق
مواد جي جدول
CUDA ۽ Tensor cores Nvidia نالي هڪ ڪمپني پاران ٺاهيل پروڊڪٽس آهن. پوءِ CUDA ڪور ۽ ٽينسر ڪور ڇا آهن؟ CUDA جو مطلب آهي Compute Unified Device Architecture. CUDA ڪور موجود آهن توهان جي GPUs، اسمارٽ فونز، ۽ توهان جي ڪارن ۾، جيئن Nvidia ڊولپرز ائين چون ٿا.
CUDA cores هڪ متوازي ڪمپيوٽنگ پليٽ فارم ۽ ايپليڪيشن پروگرامنگ انٽرفيس (API) آهن جيڪي سافٽ ويئر کي عام مقصد جي پروسيسنگ لاءِ مخصوص قسم جي گرافڪس پروسيسنگ يونٽس (GPUs) کي استعمال ڪرڻ جي قابل بنائي ٿو.
جڏهن ته ٽينسر ڪور جيڪي پڻ Nvidia پاران ٺاهيا ويا آهن، پڻ GPUs ۾ استعمال ٿيندا آهن. ٽينسر ڪور مخلوط-صحت واري ڪمپيوٽنگ کي فعال ڪن ٿا، حسابن کي متحرڪ طور تي ترتيب ڏيڻ جي ذريعي ذريعي وڌائڻ جي درستگي کي برقرار رکڻ دوران.
سادو لفظن ۾، اهي ڪور توهان جي ڪمپيوٽر ۾ GPUs جو هڪ اهم حصو آهن ڪجهه حساب ڪرڻ لاءِ. CUDA ڪور استعمال ڪيا ويندا آھن ٻن انگن کي ضرب ڪرڻ ۽ انھن کي ٻئي نمبر ۾ شامل ڪرڻ لاءِ.
جڏهن ته ٽينسر ڪور ساڳيو آهي پر 4×4 ميٽرڪس سان. اهي حساب ڪتاب بنيادي طور تي توهان لاءِ تيزيءَ سان گرافڪس پيش ڪري رهيا آهن.
CUDA ڇا آهي؟
Compute Unified Device Architecture in short CUDA پاران ترقي ڪئي وئي Nvidia پاران، 23 جون 2007 تي جاري ڪئي وئي، هڪ متوازي ڪمپيوٽنگ پليٽ فارم ۽ ايپليڪيشن پروگرامنگ انٽرفيس (API) آهي.
اهو سافٽ ويئر کي عام مقصد جي پروسيسنگ لاءِ مخصوص قسم جا گرافڪس پروسيسنگ يونٽ (GPUs) استعمال ڪرڻ جي قابل بڻائي ٿو، هڪ طريقو جنهن کي عام مقصدي ڪمپيوٽنگ طور سڃاتو وڃي ٿو.GPUs (GPU).
CUDA هڪ سافٽ ويئر پرت آهي جيڪا GPU جي ورچوئل هدايتون سيٽ تائين سڌو رسائي فراهم ڪري ٿي ۽ ڪمپيوٽ ڪنلز جي عمل لاءِ متوازي ڪمپيوٽيشنل عناصر. CUDA ترقي ڪئي وئي مختلف پروگرامنگ ٻولين سان ڪم ڪرڻ لاءِ بشمول C, C++ ۽ Fortran.
مختلف پروگرامنگ ٻولين سان ڪم ڪرڻ جي صلاحيت متوازي پروگرامنگ ۾ ماهرن لاءِ GPU وسيلن کي استعمال ڪرڻ آسان بڻائي ٿي جيڪڏهن اسان ان کي اڳئين APIs جهڙوڪ Direct3D يا OpenGL کان الڳ ڪريون، جنهن لاءِ توهان کي وڌيڪ ترقي يافته هجڻ جي ضرورت پوندي. گرافڪ پروگرامنگ ۾ مهارت جو بنياد.
GPU سان گڏ CUDA پڻ پروگرامنگ فريم ورڪ کي سپورٽ ڪري ٿو، جهڙوڪ OpenMP، OpenACC، OpenCL، ۽ پڻ HIP جيڪي CUDA ۾ اهڙي ڪوڊ گڏ ڪري سگھن ٿا. CUDA لاءِ استعمال ٿيل پهريون نالو Compute Unified Device Architecture جو مخفف هو. بهرحال، Nvidia بعد ۾ عام طور تي استعمال ٿيل مخفف کي ڇڏي ڏنو.
هڪ طاقتور Nvidia گرافڪس ڪارڊ GTX 1080 Ti
وڌيڪ CUDA بابت
هڪ خاص ڪمپيوٽر پروسيسر جي طور تي، گرافڪس پروسيسنگ يونٽ (GPU) حقيقي ضرورتن کي پورو ڪري ٿو. -time, compute-intensive 3D graphics workloads.
2012 جي باري ۾ GPUs ترقي ڪئي ۽ انتهائي متوازي ملٽي-ڪور سسٽم بڻجي ويا آهن جيڪي وڏن بلاڪن لاءِ موثر ڊيٽا پروسيسنگ کي فعال ڪن ٿا.
جڏهن ڊيٽا جي وڏن بلاڪن کي متوازي طريقي سان پروسيس ڪيو وڃي، اهو ڊزائين الورورٿمز لاءِ عام مقصدي سينٽرل پروسيسنگ يونٽس (سي پي يوز) کان بهتر آهي، جهڙوڪ:
- cryptographic hashفنڪشن
- مشين لرننگ
- ماليڪيولر ڊائنامڪس سموليشن
- فزڪس انجڻ
- الگورٿم ترتيب ڏيو
CUDA آرڪيٽيڪچر جا استعمال هاڻي ۽ مستقبل ۾
- 3D گرافڪس جي تيزيءَ سان رينڊرنگ
- ويڊيو فائل فارميٽ جي تيزيءَ سان مٽاسٽا
- تيز ٿيل انڪرپشن، ڊيڪرپشن، ۽ ڪمپريشن
- بائيو انفارميٽيڪس، مثال طور، NGS DNA ترتيب ڏيڻ BarraCUDA
- تقسيم ڪيل حساب، جيئن اڳڪٿي ڪرڻ پروٽين جي اصلي ٺاھ جوڙ
- طبي تجزياتي نموني، مثال طور، مجازي حقيقت جي بنياد تي CT ۽ MRI اسڪين تصويرون
- جسماني نموني، خاص طور تي فلوئڊ ڊائنامڪس ۾
- مشين لرننگ مسئلن ۾ نيورل نيٽورڪ ٽريننگ
- منهن جي سڃاڻپ
- تقسيم ڪيل ڪمپيوٽنگ پروجيڪٽ، جهڙوڪ [اي ميل محفوظ ڪيل] ۽ ٻيا پروجيڪٽ استعمال ڪندي BOINC
- ماليڪيولر ڊينامڪس
- مائننگ cryptocurrencies
- Structure from motion (SfM) سافٽ ويئر
ٽينسر ڪور ڇا آهي؟
Tensor Cores جي نالي سان مخصوص ڪور مخلوط-پريزيئن ٽريننگ جي اجازت ڏين ٿا. اهي خاص ڪور جي شروعاتي نسل هن کي فيوز ٿيل ضرب-اضافو الگورتھم سان ڪري ٿو. اهو ممڪن بڻائي ٿو ته ٻه 4 x 4 FP16 ميٽرڪس کي 4 x 4 FP16 يا FP32 ميٽرڪس ۾ ضرب ۽ شامل ڪرڻ.
آخري نتيجو FP32 هوندو صرف ٿورڙي درستگي جي نقصان سان، مخلوط صحت واري ڪمپيوٽنگ کي نامزد ڪيو ويو آهي جيتوڻيڪان پٽ ميٽرڪس ٿي سگھي ٿو گھٽ-سڌائي FP16.
عملي طور تي، هي خاص طور تي تيز ٿئي ٿو حسابن کي ماڊل جي آخري اثرائتي تي ٿورڙي اثر سان. هن ظرفيت کي بعد ۾ مائڪرو آرڪيٽيڪچرز طرفان وڌايو ويو آهي اڃا به گهٽ صحيح ڪمپيوٽر نمبر جي نمائندگي تائين.
پهريون نسل وولٽا مائڪرو آرڪيٽيڪچر سان متعارف ڪرايو ويو جيڪو V100 کان شروع ٿي، هر گذرندڙ نسل سان گڏ نئين GPU مائيڪرو آرڪيٽيڪچرز سان گڏ ڪمپيوٽيشن لاءِ وڌيڪ ڪمپيوٽر نمبر درست فارميٽ دستياب ڪيا ويا.
اسان انهي بابت ڳالهائينداسين ته ڪيئن ٽينسر ڪور جي صلاحيت ۽ ڪارڪردگي کي تبديل ڪيو ويو آهي ۽ هر مائڪرو آرڪيٽيڪچر نسل سان گڏ هيٺ ڏنل حصي ۾.
Titan V پاران ٺاهيل گرافڪ طور تي ٺهيل تصوير
ٽينسر ڪور ڪيئن ڪم ڪن ٿا؟
پهريون نسل:
وولٽا GPU مائڪرو آرڪيٽيڪچر ٽينسر ڪور جي پهرين نسل سان شامل ڪيو ويو. انهن ڪورن ان کي ممڪن بڻائي ڇڏيو آهي ته ٽريننگ کي مليل سڌائي ۽ FP16 نمبر فارميٽ سان.
ڏسو_ پڻ: ايگرٽ ۽ هيرون جي وچ ۾ ڇا فرق آهي؟ (اچو ته فرق ڳوليون) - سڀ فرقاهو ٿي سگهي ٿو 12x تائين واڌارو teraFLOP throughput ۾ ڪجهه GPUs لاءِ. مٿين ٽائر V100 جا 640 ڪور گذريل نسل جي Pascal GPUs جي ڀيٽ ۾ ڪارڪردگي جي رفتار ۾ 5x اضافو ڏئي ٿو.
ٻيو نسل:
Turing GPUs جي تعارف سان، ٽينسر ڪور جو ٻيو نسل متعارف ڪرايو ويو. Int8، Int4، ۽ Int1 کي سپورٽ ٿيل ٽينسر ڪور جي درستگي جي لسٽ ۾ شامل ڪيو ويو، جيڪياڳ ۾ FP16 تائين محدود.
مخلوط صحت واري تربيتي طريقيڪار جي ڪري، GPU جي ڪارڪردگي جي ذريعي پاسڪال GPUs جي مقابلي ۾ 32 ڀيرا وڌايو ويو.
ٽيون نسل:
Ampere GPU ۾ آرڪيٽيڪچر وولٽا ۽ ٽريننگ مائڪرو آرڪيٽيڪچرز جي اڳوڻين اڳڀرائي تي وڌائي ٿو FP64، TF32، ۽ bfloat16 precisions لاءِ سپورٽ شامل ڪندي.
ڊيپ لرننگ ٽريننگ ۽ انفرنس جون سرگرميون تيز ٿين ٿيون انهن اضافي نفيس فارميٽ جي ڪري. مثال طور، TF32 فارميٽ ساڳيو ڪم ڪري ٿو FP32 جڏهن ته 20x اسپيڊ اپ جي ضمانت ڏئي ٿو بغير ڪنهن ڪوڊ کي تبديل ڪرڻ جي.
پوءِ، ڪوڊ جي صرف چند لائينن سان، پاڻمرادو مخلوط درستي تي عمل ڪرڻ سان ٽريننگ کي تيز ڪندو 2x اضافي.
ٽين نسل جي NVLink کي فعال ڪرڻ لاءِ تيز رفتار ملٽي-GPU تعاملات، ٽئين نسل جي ري ٽريڪنگ ڪور، ۽ اسپارس ميٽرڪس رياضي سان اسپيشلائيزيشن ايمپيئر مائڪرو آرڪيٽيڪچر جا اضافي پهلو آهن .
چوٿون نسل:
هاپپر مائڪرو آرڪيٽيڪچر جي بنياد تي ٽينسر ڪور جي چوٿين نسل جو مستقبل جاري ڪرڻ جو منصوبو آهي. ايندڙ H100 ۾ چوٿون نسل ٽينسر ڪور.
جيڪو مارچ 2022 ۾ جاري ٿيڻ جي اميد رکي ٿو، FP8 درست فارميٽ کي سنڀالڻ جي قابل هوندو ۽ NVIDIA جي مطابق، وڏي ٻولي ماڊل کي تيز ڪندو “هڪ حيرت انگيز 30X ذريعي. پوئين نسل تي. ”
هڪ RTX گرافڪس ڪارڊ آهيگرافڪس کي تمام تيزيءَ سان رينجر ڪرڻ لاءِ استعمال ڪيو ويندو آهي جيئن ان ۾ ٽينسر ڪور شامل آهن.
فرق CUDA ڪور ۽ ٽينسر ڪور جي وچ ۾
ٽينسر ڪور في الحال محدود آهن Titan V ۽ Tesla V100 تائين. ٻنهي GPUs تي 5120 CUDA ڪور ۾ وڌ ۾ وڌ گنجائش آهي هڪ واحد درستي واري ضرب-جمع آپريشن (مثال طور، fp32 ۾: x += y * z) في GPU ڪلاڪ (مثال طور Tesla V100 PCIe تعدد 1.38Gz آهي).
هر ٽينسر ڪور 4 × 4 ننڍن ميٽرڪس تي هلندي آهي ننڍن ميٽرڪس لاءِ. في هڪ GPU ڪلاڪ، هر ٽينسر ڪور هڪ ميٽرڪس ضرب-جمع آپريشن مڪمل ڪري سگهي ٿو.
اهو ٻه 4 × 4 FP16 ميٽرڪس کي وڌائي ٿو ۽ 4 × 4 FP32 ميٽرڪس شامل ڪري ٿو جيڪو جمع ڪندڙ ۾ نتيجو آهي (اهو پڻ هڪ fp32 4 × 4 ميٽرڪس آهي).
ڇاڪاڻ ته ان پٽ ميٽرڪس fp16 آهن جڏهن ته ضرب جا نتيجا ۽ جمع ڪندڙ fp32 آهن، الورورٿم کي مخلوط درستي طور سڃاتو وڃي ٿو.
صحيح اصطلاح صرف ”4×4 ميٽرڪس ڪور“ هوندو، پر NVIDIA مارڪيٽنگ ٽيم ”ٽينسر ڪور“ استعمال ڪرڻ جو انتخاب ڪيو.
Tensor cores مڪمل وضاحت مختصر طور تي
ڏسو_ پڻ: برا کپ جي ماپ ڊي ۽ ڊي ڊي جي ماپ ۾ ڇا فرق آهي؟ (ڪهڙو وڏو آهي؟) - سڀ فرقGPU ڪارڊ 18> | CUDA cores | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB |
GeForce GTX 1660 سپر | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 سپر | 1408 | 4GB |
GeForce GTX 1650 | 1024 ۽896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
GeForce GTX 1060 6GB | 768 | 6GB |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
GeForce GTX 1050 (2GB) | 640 | 3GB |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB يا 2 GB |
GPUs جيڪي CUDA cores تي مشتمل آهن
Conclusion
- CUDA ۽ Tensor cores اهي پراڊڪٽ آهن، ٻئي ٺاهيل آهن Nvidia نالي هڪ ڪمپني پاران. CUDA جو مطلب آهي Compute Unified Device Architecture. اهي CUDA ڪور موجود آهن توهان جي GPUs، اسمارٽ فونز، ۽ توهان جي ڪارن ۾.
- جڏهن ته ٽينسر ڪور، جيڪي پڻ Nvidia پاران ٺاهيا ويا آهن، پڻ GPUs ۾ استعمال ٿيندا آهن. خاص ڪور سڏيو ويندو آهي "ٽينسر ڪور" مخلوط-صحت واري تربيت جي اجازت ڏين ٿا. Tensor Cors جي پهرين نسل ان کي ممڪن ڪيو ته مخلوط صحت ۽ FP16 نمبر فارميٽ سان ٽريننگ.
- اهو ٿي سگهي ٿو 12x تائين واڌارو teraFLOP throughput ۾ ڪجهه GPUs لاءِ. Int8، Int4، ۽ Int1 کي سپورٽ ٿيل ٽينسر ڪور جي درستگي جي لسٽ ۾ شامل ڪيو ويو.
- ملي جي ڪريصحت واري تربيتي طريقيڪار، GPU جي ڪارڪردگي کي 32 ڀيرا وڌايو ويو. هاپر مائڪرو آرڪيٽيڪچر تي ٻڌل چوٿين نسل جي ٽينسر ڪور جي مستقبل جو منصوبو آهي.