ما هو الفرق بين نوى كودا ونواة موتر؟ (شرح) - كل الاختلافات

 ما هو الفرق بين نوى كودا ونواة موتر؟ (شرح) - كل الاختلافات

Mary Davis

نوى CUDA و Tensor هي منتجات طورتها شركة تسمى Nvidia. إذن ما هي نوى CUDA ونوى Tensor؟ CUDA تعني Compute Unified Device Architecture. توجد نوى CUDA في وحدات معالجة الرسومات والهواتف الذكية وحتى سياراتك ، كما يقول مطورو Nvidia.

نوى CUDA عبارة عن منصة حوسبة متوازية وواجهة برمجة تطبيقات (API) تمكن البرنامج من الاستفادة من أنواع محددة من وحدات معالجة الرسومات (GPUs) للمعالجة ذات الأغراض العامة.

أنظر أيضا: الفرق بين Carnival CCL Stock و Carnival CUK (مقارنة) - جميع الاختلافات

في حين أن نوى الموتر التي طورتها Nvidia أيضًا ، تُستخدم أيضًا في وحدات معالجة الرسومات. تتيح Tensor Cores الحوسبة المختلطة الدقة ، وتكييف الحسابات ديناميكيًا لزيادة الإنتاجية مع الحفاظ على الدقة.

بكلمات بسيطة ، تعد هذه النوى جزءًا مهمًا من وحدات معالجة الرسومات في جهاز الكمبيوتر الخاص بك لإجراء عمليات حسابية معينة. تُستخدم نوى CUDA لمضاعفة رقمين وإضافتهما إلى رقم آخر.

في حين أن قلب الموتر هو نفسه ولكن مع مصفوفات 4 × 4. تقدم هذه الحسابات الرسومات بشكل أسرع بالنسبة لك.

ما المقصود بـ CUDA؟

حساب هندسة الأجهزة الموحدة باختصار CUDA التي طورتها Nvidia ، والتي تم إصدارها في 23 يونيو 2007 ، هي منصة حوسبة متوازية وواجهة برمجة تطبيقات (API).

ذلك يمكّن البرنامج من استخدام أنواع معينة من وحدات معالجة الرسومات (GPUs) للمعالجة ذات الأغراض العامة ، وهي طريقة تُعرف باسم الحوسبة ذات الأغراض العامة علىوحدات معالجة الرسومات (GPU).

CUDA عبارة عن طبقة برمجية توفر وصولاً مباشرًا إلى مجموعة التعليمات الافتراضية لوحدة معالجة الرسومات والعناصر الحسابية المتوازية لتنفيذ نواة الحوسبة. تم تطوير CUDA للعمل مع لغات برمجة مختلفة بما في ذلك C و C ++ و Fortran.

تجعل القدرة على العمل مع لغات برمجة مختلفة من السهل على المتخصصين في البرمجة المتوازية الاستفادة من موارد وحدة معالجة الرسومات إذا قمنا بتمييزها عن واجهات برمجة التطبيقات السابقة مثل Direct3D أو OpenGL ، الأمر الذي يتطلب منك الحصول على لغة أكثر تقدمًا قاعدة المهارات في البرمجة الرسومية.

GPU مع CUDA يدعم أيضًا أطر البرمجة ، مثل OpenMP و OpenACC و OpenCL وأيضًا HIP التي يمكنها ترجمة هذا الرمز إلى CUDA. كان الاسم الأول المستخدم لـ CUDA هو اختصار لـ Compute Unified Device Architecture. ومع ذلك ، أسقطت Nvidia لاحقًا الاختصار الشائع الاستخدام.

بطاقة رسومات Nvidia قوية GTX 1080 Ti

المزيد حول CUDA

بصفتها معالج كمبيوتر متخصص ، فإن وحدة معالجة الرسومات (GPU) تلبي الاحتياجات الحقيقية - أعباء عمل رسومات ثلاثية الأبعاد مكثفة للوقت.

حول 2012 تطورت وحدات معالجة الرسومات وأصبحت أنظمة متعددة النواة متوازية للغاية مما يتيح معالجة البيانات الفعالة للكتل الكبيرة.

عند معالجة كتل ضخمة من البيانات بالتوازي ، يتفوق هذا التصميم على وحدات المعالجة المركزية للأغراض العامة (وحدات المعالجة المركزية) للخوارزميات ، مثل:

  • تجزئة التشفيروظائف
  • التعلم الآلي
  • محاكاة الديناميات الجزيئية
  • محركات الفيزياء
  • فرز الخوارزميات

استخدامات بنية CUDA الآن و في المستقبل

  • العرض المسرع للرسومات ثلاثية الأبعاد
  • التحويل البيني السريع لتنسيقات ملفات الفيديو
  • التشفير المتسارع وفك التشفير والضغط
  • المعلوماتية الحيوية ، على سبيل المثال ، تسلسل الحمض النووي NGS BarraCUDA
  • الحسابات الموزعة ، مثل التنبؤ بالتشكيل الأصلي للبروتينات
  • محاكاة التحليل الطبي ، على سبيل المثال ، الواقع الافتراضي استنادًا إلى صور المسح المقطعي والتصوير بالرنين المغناطيسي
  • المحاكاة الفيزيائية ، لا سيما في ديناميكيات السوائل
  • تدريب الشبكة العصبية في مشاكل التعلم الآلي
  • التعرف على الوجوه
  • مشاريع الحوسبة الموزعة ، مثل [البريد الإلكتروني المحمي] والمشروعات الأخرى التي تستخدم BOINC
  • الديناميات الجزيئية
  • تعدين العملات المشفرة
  • برنامج الهيكل من الحركة (SfM)

ما هو Tensor Core؟

نوى متخصصة تسمى Tensor Cores تسمح بتدريب مختلط الدقة. يقوم الجيل الأولي لهذه النوى المتخصصة بذلك باستخدام خوارزمية إضافة مضاعفة مدمجة. هذا يجعل من الممكن ضرب وإضافة مصفوفتين 4 × 4 FP16 إلى مصفوفة 4 × 4 FP16 أو FP32.

أنظر أيضا: هل سيحدث أي اختلاف في جسمك بعد ستة أشهر في صالة الألعاب الرياضية؟ (اكتشف) - كل الاختلافات

ستكون النتيجة النهائية هي FP32 مع فقد بسيط فقط للدقة ، تم تحديد الحوسبة المختلطة بدقة على هذا النحو على الرغم منقد تكون مصفوفات الإدخال منخفضة الدقة FP16.

من الناحية العملية ، يؤدي هذا إلى تسريع العمليات الحسابية بشكل كبير مع تأثير ضئيل على الفعالية النهائية للنموذج. تم توسيع هذه السعة من خلال البنى الدقيقة اللاحقة لتمثيل أرقام الكمبيوتر الأقل دقة.

تم تقديم الجيل الأول مع الهندسة المعمارية الدقيقة لـ Volta بدءًا من V100 ، وتم توفير المزيد من تنسيقات دقة أرقام الكمبيوتر للحساب باستخدام البنى الدقيقة لوحدة معالجة الرسومات (GPU) الجديدة مع كل جيل يمر.

سنتحدث عن كيفية تغيير قدرة Tensor Cores ووظائفها وتحسينها مع كل جيل للهندسة المعمارية الدقيقة في القسم التالي.

صورة يتم عرضها رسومياً بواسطة Titan V

كيف تعمل Tensor Cores؟

الجيل الأول:

تم تضمين بنية Volta GPU المصغرة مع الجيل الأول من Tensor Cores. جعلت هذه النوى من الممكن التدرب بدقة مختلطة وتنسيق أرقام FP16.

قد يؤدي هذا إلى زيادة تصل إلى 12x في إنتاجية teraFLOP لبعض وحدات معالجة الرسومات. توفر 640 نواة من المستوى الأعلى V100 زيادة في سرعة الأداء تصل إلى 5 أضعاف مقارنة بوحدات معالجة الرسومات Pascal من الجيل السابق.

الجيل الثاني:

مع إدخال وحدات معالجة الرسومات Turing ، تم تقديم الجيل الثاني من Tensor Cores. تمت إضافة Int8 و Int4 و Int1 إلى قائمة دقة Tensor Core المدعومة ، والتي كانتيقتصر سابقًا على FP16.

نظرًا لإجراءات التدريب الدقيقة المختلطة ، زادت سرعة أداء وحدة معالجة الرسومات بما يصل إلى 32 مرة مقارنة بوحدات معالجة رسومات باسكال.

الجيل الثالث:

تتوسع الهندسة المعمارية في وحدة معالجة الرسومات Ampere في التطورات السابقة لهيكلية Volta و Turing عن طريق إضافة دعم لدقة FP64 و TF32 و bfloat16.

يتم تسريع أنشطة التدريب على التعلم العميق والاستدلال بشكل أكبر من خلال تنسيقات الدقة الإضافية هذه. على سبيل المثال ، يعمل تنسيق TF32 بشكل مشابه لـ FP32 مع ضمان تسريع يصل إلى 20 ضعفًا دون تغيير أي رمز.

بعد ذلك ، باستخدام بضعة أسطر فقط من التعليمات البرمجية ، سيؤدي تنفيذ الدقة المختلطة تلقائيًا إلى تسريع التدريب بمقدار 2x إضافي.

الجيل الثالث من NVLink لتمكين تفاعلات GPU المتعددة السريعة للغاية ، ونوى تتبع Ray Tracing من الجيل الثالث ، والتخصص مع رياضيات المصفوفة المتفرقة هي جوانب إضافية لمعمارية Ampere الدقيقة .

الجيل الرابع:

تم التخطيط لإصدار مستقبلي للجيل الرابع من Tensor Cores القائم على الهندسة المعمارية الصغيرة هوبر. الجيل الرابع من Tensor Cores في H100 القادم.

الذي من المتوقع أن يتم إصداره في مارس 2022 ، سيكون قادرًا على التعامل مع تنسيقات الدقة FP8 ، ووفقًا لـ NVIDIA ، سيعمل على تسريع نماذج اللغات الضخمة "بنسبة مذهلة 30X على الجيل السابق. "

بطاقة رسومات RTX هيتستخدم لتقديم الرسومات بسرعة كبيرة لأنها تحتوي على نوى موتر.

الفرق بين نوى CUDA و Tensor Cores

تقتصر نوى Tensor حاليًا على Titan V و Tesla V100. تتمتع نوى 5120 CUDA الموجودة في كل من وحدات معالجة الرسومات بسعة قصوى لعملية تراكم مضاعفة دقيقة واحدة (على سبيل المثال ، في fp32: x + = y * z) لكل ساعة GPU (على سبيل المثال ، تردد Tesla V100 PCIe هو 1.38 جيجا هرتز).

يعمل كل قلب موتر على 4 × 4 مصفوفات صغيرة للمصفوفات الصغيرة. لكل ساعة GPU واحدة ، يمكن لكل نواة موتر أن تكمل عملية تراكم مضاعفة لمصفوفة واحدة.

يضاعف مصفوفتين 4 × 4 FP16 ويضيف مصفوفة 4 × 4 FP32 التي ينتج عنها المجمع (وهو أيضًا مصفوفة fp32 4 × 4).

نظرًا لأن مصفوفات الإدخال تكون fp16 بينما تكون نتائج الضرب والمجمع fp32 ، تُعرف الخوارزمية بالدقة المختلطة.

من المحتمل أن يكون المصطلح الصحيح هو "نوى مصفوفة 4 × 4" ، لكن فريق تسويق NVIDIA اختار استخدام "مراكز موتر".

نوى موتر الشرح الكامل باختصار

بطاقة GPU نوى CUDA VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 Super 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 Super 1408 4GB
GeForce GTX 1650 1024 و896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB) 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 جيجا بايت
GeForce GTX 750 512 1 جيجا بايت أو 2 جيجا بايت

وحدات معالجة الرسومات التي تحتوي على نوى CUDA

الاستنتاج

  • نواة CUDA و Tensor هي منتجات تم تطويرها بواسطة شركة تسمى Nvidia. CUDA تعني Compute Unified Device Architecture. توجد نوى CUDA هذه في وحدات معالجة الرسومات والهواتف الذكية وحتى سياراتك.
  • في حين أن نوى الموتر ، التي طورتها Nvidia أيضًا ، تُستخدم أيضًا في وحدات معالجة الرسومات. تسمح النوى المتخصصة المسماة "نوى Tensor" بتدريب مختلط الدقة. أتاح الجيل الأول من Tensor Cores إمكانية التدريب بدقة مختلطة وتنسيق أرقام FP16.
  • قد يؤدي هذا إلى زيادة تصل إلى 12x في إنتاجية teraFLOP لبعض وحدات معالجة الرسومات. تمت إضافة Int8 و Int4 و Int1 إلى قائمة دقة Tensor Core المدعومة.
  • بسبب الاختلاطإجراءات التدريب الدقيقة ، تم زيادة أداء وحدة معالجة الرسومات بما يصل إلى 32 مرة. تم التخطيط لإصدار مستقبلي للجيل الرابع من هوبر المعتمد على الهندسة المعمارية الدقيقة من نوى Tensor.

مقالات أخرى

    Mary Davis

    ماري ديفيس كاتبة وصانع محتوى وباحثة شغوفة متخصصة في تحليل المقارنة في مواضيع مختلفة. تتمتع ماري بشهادة في الصحافة وأكثر من خمس سنوات من الخبرة في هذا المجال ، ولديها شغف لتقديم معلومات غير متحيزة ومباشرة لقرائها. بدأ حبها للكتابة عندما كانت صغيرة وكانت القوة الدافعة وراء مسيرتها المهنية الناجحة في الكتابة. إن قدرة ماري على البحث وتقديم النتائج بتنسيق سهل الفهم والتفاعل جعلها محبوبًا لدى القراء في جميع أنحاء العالم. عندما لا تكتب ، تستمتع ماري بالسفر والقراءة وقضاء الوقت مع العائلة والأصدقاء.