CUDA Cores اور Tensor Cores کے درمیان کیا فرق ہے؟ (وضاحت) - تمام اختلافات

 CUDA Cores اور Tensor Cores کے درمیان کیا فرق ہے؟ (وضاحت) - تمام اختلافات

Mary Davis

CUDA اور Tensor cores Nvidia نامی کمپنی کی تیار کردہ مصنوعات ہیں۔ تو CUDA cores اور Tensor cores کیا ہیں؟ CUDA کا مطلب کمپیوٹ یونیفائیڈ ڈیوائس آرکیٹیکچر ہے۔ CUDA cores آپ کے GPUs، اسمارٹ فونز، اور یہاں تک کہ آپ کی کاروں میں بھی موجود ہیں، جیسا کہ Nvidia کے ڈویلپرز کہتے ہیں۔

CUDA cores ایک متوازی کمپیوٹنگ پلیٹ فارم اور ایپلیکیشن پروگرامنگ انٹرفیس (API) ہیں جو سافٹ ویئر کو عام مقصد کی پروسیسنگ کے لیے مخصوص قسم کے گرافکس پروسیسنگ یونٹس (GPUs) کا استعمال کرنے کے قابل بناتا ہے۔

جبکہ ٹینسر کور جو کہ Nvidia کے ذریعے بھی تیار کیے گئے تھے، GPUs میں بھی استعمال ہوتے ہیں۔ ٹینسر کور مخلوط-پریسیجن کمپیوٹنگ کو فعال کرتے ہیں، درستگی کو برقرار رکھتے ہوئے تھرو پٹ کو بڑھانے کے لیے متحرک طور پر حساب کو اپناتے ہیں۔

سادہ الفاظ میں، یہ کور آپ کے کمپیوٹر میں کچھ حسابات کرنے کے لیے GPUs کا ایک اہم حصہ ہیں۔ CUDA cores کو دو نمبروں کو ضرب دینے اور دوسرے نمبر میں شامل کرنے کے لیے استعمال کیا جاتا ہے۔

جبکہ ٹینسر کور ایک جیسا ہے لیکن 4×4 میٹرکس کے ساتھ۔ یہ حسابات بنیادی طور پر آپ کے لیے گرافکس کو تیزی سے پیش کر رہے ہیں۔

CUDA کیا ہے؟

مختصر CUDA میں کمپیوٹ یونیفائیڈ ڈیوائس آرکیٹیکچر جسے Nvidia نے تیار کیا ہے، جو 23 جون 2007 کو ریلیز ہوا، ایک متوازی کمپیوٹنگ پلیٹ فارم اور ایپلیکیشن پروگرامنگ انٹرفیس (API) ہے۔

وہ سافٹ ویئر کو عام مقصد کی پروسیسنگ کے لیے مخصوص قسم کے گرافکس پروسیسنگ یونٹس (GPUs) کو استعمال کرنے کے قابل بناتا ہے، یہ طریقہ عام مقصدی کمپیوٹنگ کے نام سے جانا جاتا ہے۔GPUs (GPU)۔

CUDA ایک سافٹ ویئر کی تہہ ہے جو GPU کے ورچوئل انسٹرکشن سیٹ تک براہ راست رسائی فراہم کرتی ہے اور کمپیوٹ کرنل کے عمل کے لیے متوازی کمپیوٹیشنل عناصر۔ CUDA کو مختلف پروگرامنگ زبانوں بشمول C, C++ اور Fortran کے ساتھ کام کرنے کے لیے تیار کیا گیا تھا۔

مختلف پروگرامنگ زبانوں کے ساتھ کام کرنے کی اہلیت متوازی پروگرامنگ کے ماہرین کے لیے GPU کے وسائل کا استعمال آسان بناتی ہے اگر ہم اسے پہلے کے APIs جیسے Direct3D یا OpenGL سے مختلف کرتے ہیں، جس کے لیے آپ کو زیادہ جدید ہونے کی ضرورت ہوگی۔ گرافیکل پروگرامنگ میں مہارت کی بنیاد۔

بھی دیکھو: قسط اور قسط میں کیا فرق ہے؟ (آئیے دریافت کریں) - تمام اختلافات

CUDA کے ساتھ GPU پروگرامنگ فریم ورک کو بھی سپورٹ کرتا ہے، جیسے OpenMP، OpenACC، OpenCL، اور HIP بھی جو اس طرح کے کوڈ کو CUDA میں مرتب کر سکتا ہے۔ CUDA کے لیے استعمال ہونے والا پہلا نام Compute Uniified Device Architecture کا مخفف تھا۔ تاہم، Nvidia نے بعد میں عام طور پر استعمال ہونے والا مخفف چھوڑ دیا۔

ایک طاقتور Nvidia گرافکس کارڈ GTX 1080 Ti

CUDA کے بارے میں مزید

ایک خصوصی کمپیوٹر پروسیسر کے طور پر، گرافکس پروسیسنگ یونٹ (GPU) حقیقی ضروریات کو پورا کرتا ہے۔ -وقت، کمپیوٹ-انٹینسیو 3D گرافکس ورک بوجھ۔

2012 کے بارے میں GPUs تیار ہوئے اور بڑے بڑے بلاکس کے لیے موثر ڈیٹا پروسیسنگ کے قابل بنانے والے انتہائی متوازی ملٹی کور سسٹم بن گئے۔

متوازی طور پر ڈیٹا کے بڑے بلاکس پر کارروائی کرتے وقت، یہ ڈیزائن الگورتھم کے لیے عام مقصد کے مرکزی پروسیسنگ یونٹس (CPUs) سے بہتر ہے، جیسے:

  • کرپٹوگرافک ہیشفنکشنز
  • مشین لرننگ
  • مالیکیولر ڈائنامکس سمیولیشنز
  • فزکس انجن
  • الگورتھم ترتیب دیں

CUDA فن تعمیر کے اب استعمال اور مستقبل میں

  • 3D گرافکس کی تیز رفتار رینڈرنگ
  • ویڈیو فائل فارمیٹس کی تیز رفتار انٹرکنورژن
  • ایکسلریٹڈ انکرپشن، ڈیکرپشن، اور کمپریشن
  • بائیو انفارمیٹکس، مثال کے طور پر، NGS DNA کی ترتیب BarraCUDA
  • تقسیم شدہ حسابات، جیسے کہ پروٹین کی مقامی ساخت کی پیش گوئی کرنا
  • طبی تجزیے کے نقوش، مثال کے طور پر، CT اور MRI اسکین امیجز پر مبنی ورچوئل رئیلٹی
  • جسمانی نقالی، خاص طور پر فلوڈ ڈائنامکس میں
  • مشین لرننگ کے مسائل میں نیورل نیٹ ورک کی تربیت
  • چہرے کی شناخت
  • تقسیم کمپیوٹنگ پروجیکٹس، جیسے کہ [ای میل پروٹیکٹڈ] اور دیگر پروجیکٹس BOINC
  • مالیکیولر ڈائنامکس
  • مائننگ کرپٹو کرنسی
  • موشن (SfM) سافٹ ویئر سے ساخت

ٹینسر کور کیا ہے؟

Tensor Cores کہلانے والے مخصوص کور مخلوط درستگی کی تربیت کی اجازت دیتے ہیں۔ ان خصوصی کوروں کی ابتدائی نسل یہ فیوزڈ ملٹی پلائی ایڈ الگورتھم کے ساتھ کرتی ہے۔ اس سے دو 4 x 4 FP16 میٹرکس کو 4 x 4 FP16 یا FP32 میٹرکس میں ضرب لگانا اور شامل کرنا ممکن ہو جاتا ہے۔

حتمی نتیجہ FP32 ہو گا جس میں درستگی کے معمولی نقصان کے ساتھ، مخلوط صحت سے متعلق کمپیوٹنگ کو اس طرح نامزد کیا گیا ہے اگرچہان پٹ میٹرکس کم درستگی والے FP16 ہو سکتے ہیں۔

عملی طور پر، یہ ماڈل کی حتمی تاثیر پر بہت کم اثر کے ساتھ حسابات کو نمایاں طور پر تیز کرتا ہے۔ اس صلاحیت کو بعد کے مائیکرو آرکیٹیکچرز کے ذریعہ کمپیوٹر نمبر کی کم درست نمائندگی تک بڑھا دیا گیا ہے۔

پہلی جنریشن کو V100 سے شروع ہونے والے وولٹا مائیکرو آرکیٹیکچر کے ساتھ متعارف کرایا گیا تھا، ہر گزرتی ہوئی نسل کے ساتھ نئے GPU مائیکرو آرکیٹیکچرز کے ساتھ حساب کے لیے مزید کمپیوٹر نمبر درستگی کے فارمیٹس دستیاب کرائے گئے تھے۔

ہم اس کے بارے میں بات کریں گے کہ کس طرح ٹینسر کور کی صلاحیت اور فعالیت میں ہر مائیکرو آرکیٹیکچر جنریشن کے ساتھ اس کے بعد والے حصے میں تبدیلی اور بہتری آئی ہے۔

Titan V کی طرف سے بنائی گئی گرافک طور پر پیش کردہ تصویر

ٹینسر کور کیسے کام کرتے ہیں؟

پہلی نسل:

Volta GPU مائیکرو آرکیٹیکچر کو Tensor Cores کی پہلی نسل کے ساتھ شامل کیا گیا تھا۔ ان کوروں نے مخلوط درستگی اور FP16 نمبر فارمیٹ کے ساتھ تربیت کو ممکن بنایا۔

اس سے مخصوص GPUs کے لیے teraFLOP تھرو پٹ میں 12x تک کا اضافہ ہو سکتا ہے۔ اعلی درجے کے V100 کے 640 کور پچھلی نسل کے پاسکل GPUs کے مقابلے کارکردگی کی رفتار میں 5x تک اضافہ کرتے ہیں۔

دوسری نسل:

Turing GPUs کے تعارف کے ساتھ، Tensor Cores کی دوسری نسل متعارف کرائی گئی۔ Int8، Int4، اور Int1 کو تعاون یافتہ Tensor Core precisions کی فہرست میں شامل کیا گیا، جو کہپہلے FP16 تک محدود تھا۔

مخلوط صحت سے متعلق تربیتی طریقہ کار کی وجہ سے، GPU کی کارکردگی کے تھرو پٹ میں Pascal GPUs کے مقابلے میں 32 گنا تک اضافہ ہوا۔

بھی دیکھو: آئل پریشر سینسر بمقابلہ سوئچ - کیا وہ دونوں ایک ہی چیز ہیں؟ (وضاحت) - تمام اختلافات

تیسری نسل:

ایمپیئر GPU میں فن تعمیر FP64، TF32، اور bfloat16 درستگیوں کے لیے سپورٹ شامل کرکے وولٹا اور ٹورنگ مائیکرو آرکیٹیکچرز کی ابتدائی ترقیوں پر پھیلتا ہے۔

ان اضافی درستگی کے فارمیٹس سے گہری سیکھنے کی تربیت اور تخمینہ کی سرگرمیاں بہت زیادہ تیز ہوتی ہیں۔ مثال کے طور پر، TF32 فارمیٹ FP32 کی طرح کام کرتا ہے جبکہ بغیر کسی کوڈ کو تبدیل کیے 20x اسپیڈ اپ کی ضمانت بھی دیتا ہے۔

پھر، کوڈ کی صرف چند سطروں کے ساتھ، خود کار طریقے سے مخلوط درستگی کا نفاذ ٹریننگ کو ایک اضافی 2x تک تیز کر دے گا۔

تیسری نسل کا NVLink انتہائی تیز ملٹی-GPU تعاملات، تھرڈ جنریشن رے ٹریسنگ کورز، اور اسپارس میٹرکس ریاضی کے ساتھ اسپیشلائزیشن ایمپیئر مائیکرو آرکیٹیکچر کے اضافی پہلو ہیں ۔

چوتھی جنریشن:

ہاپر مائیکرو آرکیٹیکچر پر مبنی ٹینسر کور کی چوتھی نسل کی مستقبل میں ریلیز کا منصوبہ ہے۔ اگلے H100 میں چوتھی جنریشن Tensor Cores۔

جو مارچ 2022 میں ریلیز ہونے کی توقع ہے، FP8 درست فارمیٹس کو ہینڈل کرنے کے قابل ہو جائے گا اور NVIDIA کے مطابق، بڑی زبان کے ماڈلز کو "حیرت انگیز 30X" سے تیز کرے گا۔ پچھلی نسل سے زیادہ۔"

ایک RTX گرافکس کارڈ ہے۔گرافکس کو بہت تیزی سے پیش کرنے کے لیے استعمال کیا جاتا ہے کیونکہ اس میں ٹینسر کور ہوتے ہیں۔

CUDA Cores اور Tensor Cores کے درمیان فرق

ٹینسر کور فی الحال Titan V اور Tesla V100 تک محدود ہیں۔ دونوں GPUs پر 5120 CUDA cores میں زیادہ سے زیادہ ایک واحد پریزین ملٹی پلائی اکمولیٹ آپریشن کی گنجائش ہوتی ہے (مثال کے طور پر، fp32: x += y * z میں) فی GPU گھڑی (جیسے Tesla V100 PCIe فریکوئنسی 1.38Gz ہے)۔

ہر ٹینسر کور چھوٹے میٹرکس کے لیے 4×4 چھوٹے میٹرکس پر کام کرتا ہے۔ فی ایک GPU گھڑی، ہر ٹینسر کور ایک میٹرکس ضرب جمع آپریشن مکمل کر سکتا ہے۔

0

کیونکہ ان پٹ میٹرکس fp16 ہیں جبکہ ضرب کے نتائج اور جمع کرنے والے fp32 ہیں، الگورتھم کو مخلوط درستگی کے نام سے جانا جاتا ہے۔

صحیح اصطلاح ممکنہ طور پر صرف "4×4 میٹرکس کور" ہو گی، لیکن NVIDIA مارکیٹنگ ٹیم نے "ٹینسر کور" استعمال کرنے کا انتخاب کیا۔

Tensor cores مختصر طور پر مکمل وضاحت

<23
GPU کارڈ CUDA cores VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 سپر 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 سپر 1408 4GB
GeForce GTX 1650 1024 اور896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB)<22 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1GB یا 2 GB

GPUs جن میں CUDA cores ہوتے ہیں

نتیجہ

  • CUDA اور Tensor cores مصنوعات ہیں، دونوں کو Nvidia نامی کمپنی نے تیار کیا ہے۔ CUDA کا مطلب کمپیوٹ یونیفائیڈ ڈیوائس آرکیٹیکچر ہے۔ یہ CUDA کور آپ کے GPUs، اسمارٹ فونز، اور یہاں تک کہ آپ کی کاروں میں بھی موجود ہیں۔
  • جبکہ ٹینسر کور، جو Nvidia کے ذریعہ بھی تیار کیے گئے تھے، GPUs میں بھی استعمال ہوتے ہیں۔ خصوصی کور جسے "ٹینسر کور" کہتے ہیں مخلوط صحت سے متعلق تربیت کی اجازت دیتے ہیں۔ Tensor Cores کی پہلی نسل نے مخلوط درستگی اور FP16 نمبر فارمیٹ کے ساتھ تربیت کو ممکن بنایا۔
  • اس سے مخصوص GPUs کے لیے teraFLOP تھرو پٹ میں 12x تک کا اضافہ ہو سکتا ہے۔ Int8، Int4، اور Int1 کو تعاون یافتہ Tensor Core precisions کی فہرست میں شامل کیا گیا۔
  • مخلوط ہونے کی وجہ سےصحت سے متعلق تربیتی طریقہ کار، GPU کی کارکردگی میں 32 گنا اضافہ کیا گیا۔ ہوپر مائیکرو آرکیٹیکچر پر مبنی ٹینسر کور کی چوتھی نسل کی مستقبل میں ریلیز کا منصوبہ ہے۔

دیگر مضامین

    Mary Davis

    مریم ڈیوس ایک مصنف، مواد کی تخلیق کار، اور مختلف موضوعات پر موازنہ تجزیہ کرنے میں مہارت رکھنے والی محقق ہیں۔ صحافت میں ڈگری اور اس شعبے میں پانچ سال سے زیادہ کے تجربے کے ساتھ، مریم کو اپنے قارئین تک غیر جانبدارانہ اور سیدھی معلومات فراہم کرنے کا جنون ہے۔ لکھنے سے اس کی محبت اس وقت شروع ہوئی جب وہ جوان تھی اور لکھنے میں اس کے کامیاب کیریئر کے پیچھے ایک محرک رہی ہے۔ مریم کی تحقیق کرنے اور نتائج کو سمجھنے میں آسان اور دل چسپ شکل میں پیش کرنے کی صلاحیت نے اسے پوری دنیا کے قارئین کے لیے پسند کیا ہے۔ جب وہ لکھ نہیں رہی ہوتی، مریم کو سفر کرنا، پڑھنا، اور خاندان اور دوستوں کے ساتھ وقت گزارنا اچھا لگتا ہے۔