CUDA कोर आणि टेन्सर कोर मधील फरक काय आहे? (स्पष्टीकरण) – सर्व फरक

 CUDA कोर आणि टेन्सर कोर मधील फरक काय आहे? (स्पष्टीकरण) – सर्व फरक

Mary Davis

CUDA आणि Tensor cores ही Nvidia नावाच्या कंपनीने विकसित केलेली उत्पादने आहेत. तर CUDA कोर आणि टेन्सर कोर काय आहेत? CUDA म्हणजे Compute Uniified Device Architecture. CUDA कोर तुमच्या GPUs, स्मार्टफोन्समध्ये आणि अगदी तुमच्या कारमध्ये देखील असतात, जसे Nvidia डेव्हलपर म्हणतात.

CUDA कोर हे समांतर संगणकीय प्लॅटफॉर्म आणि ऍप्लिकेशन प्रोग्रामिंग इंटरफेस (API) आहेत जे सॉफ्टवेअरला सामान्य-उद्देशीय प्रक्रियेसाठी विशिष्ट प्रकारच्या ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) चा वापर करण्यास सक्षम करतात.

जेव्हा Nvidia ने विकसित केलेले टेन्सर कोर देखील GPU मध्ये वापरले जातात. टेन्सर कोर मिश्र-परिशुद्धता संगणन सक्षम करतात, अचूकता राखून थ्रूपुट वाढवण्यासाठी डायनॅमिक पद्धतीने गणना स्वीकारतात.

हे देखील पहा: dy/dx & मधील फरक dx/dy (वर्णन केलेले) - सर्व फरक

सोप्या शब्दात, विशिष्ट गणना करण्यासाठी हे कोर तुमच्या PC मधील GPU चा एक महत्त्वाचा भाग आहेत. CUDA कोर दोन संख्यांचा गुणाकार करण्यासाठी आणि त्यांना दुसर्‍या संख्येत जोडण्यासाठी वापरले जातात.

जेव्हा टेन्सर कोर समान आहे परंतु 4×4 मॅट्रिकसह आहे. ही गणना मुळात तुमच्यासाठी ग्राफिक्स जलद प्रस्तुत करत आहेत.

CUDA म्हणजे काय?

23 जून 2007 रोजी रिलीझ केलेले Nvidia ने विकसित केलेले CUDA मध्ये कॉम्प्युट युनिफाइड डिव्हाइस आर्किटेक्चर हे एक समांतर संगणकीय प्लॅटफॉर्म आणि अॅप्लिकेशन प्रोग्रामिंग इंटरफेस (API) आहे.

ते सॉफ्टवेअरला सामान्य-उद्देशीय प्रक्रियेसाठी विशिष्ट प्रकारचे ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) वापरण्यास सक्षम करते, ही पद्धत सामान्य-उद्देश संगणन म्हणून ओळखली जातेGPUs (GPU).

CUDA हा एक सॉफ्टवेअर स्तर आहे जो GPU च्या व्हर्च्युअल इंस्ट्रक्शन सेटमध्ये थेट प्रवेश प्रदान करतो आणि कंप्यूट कर्नलच्या अंमलबजावणीसाठी समांतर संगणकीय घटक प्रदान करतो. C, C++ आणि Fortran यासह विविध प्रोग्रामिंग भाषांसह काम करण्यासाठी CUDA विकसित करण्यात आले.

वेगवेगळ्या प्रोग्रामिंग भाषांसह कार्य करण्याची क्षमता समांतर प्रोग्रामिंगमधील तज्ञांना GPU संसाधने वापरणे सोपे करते जर आम्ही ते Direct3D किंवा OpenGL सारख्या पूर्वीच्या API पासून वेगळे केले, ज्यासाठी तुम्हाला अधिक प्रगत असणे आवश्यक आहे. ग्राफिकल प्रोग्रामिंगमधील कौशल्याचा आधार.

CUDA सह GPU प्रोग्रामिंग फ्रेमवर्कचे समर्थन करते, जसे की OpenMP, OpenACC, OpenCL आणि HIP देखील जे असे कोड CUDA मध्ये संकलित करू शकतात. CUDA साठी वापरलेले पहिले नाव Compute Uniified Device Architecture चे संक्षिप्त रूप होते. तथापि, Nvidia ने नंतर सामान्यतः वापरले जाणारे परिवर्णी शब्द वगळले.

एक शक्तिशाली Nvidia ग्राफिक्स कार्ड GTX 1080 Ti

CUDA बद्दल अधिक

विशेष संगणक प्रोसेसर म्हणून, ग्राफिक्स प्रोसेसिंग युनिट (GPU) वास्तविक गरजा पूर्ण करते -वेळ, गणना-केंद्रित 3D ग्राफिक्स वर्कलोड्स.

हे देखील पहा: एक्वा, निळसर, टील आणि नीलमणी मधील फरक काय आहेत? - सर्व फरक

सुमारे 2012 GPUs विकसित झाले आणि मोठ्या ब्लॉक्ससाठी प्रभावी डेटा प्रक्रिया सक्षम करणारी उच्च समांतर मल्टी-कोर प्रणाली बनली.

समांतर डेटाच्या मोठ्या ब्लॉक्सवर प्रक्रिया करताना, हे डिझाइन अल्गोरिदमसाठी सामान्य उद्देश सेंट्रल प्रोसेसिंग युनिट्स (CPUs) पेक्षा श्रेष्ठ आहे, जसे की:

  • क्रिप्टोग्राफिक हॅशफंक्शन्स
  • मशीन लर्निंग
  • मॉलिक्युलर डायनॅमिक्स सिम्युलेशन
  • भौतिक इंजिन
  • सोर्ट अल्गोरिदम

आता CUDA आर्किटेक्चरचा वापर आणि भविष्यात

  • 3D ग्राफिक्सचे प्रवेगक रेंडरिंग
  • व्हिडिओ फाइल फॉरमॅटचे प्रवेगक आंतररूपांतरण
  • त्वरित एन्क्रिप्शन, डिक्रिप्शन आणि कॉम्प्रेशन
  • बायोइन्फॉरमॅटिक्स, उदा., NGS DNA अनुक्रमणिका BarraCUDA
  • वितरित गणना, जसे की प्रथिनांच्या मूळ स्वरूपाचा अंदाज लावणे
  • वैद्यकीय विश्लेषण सिम्युलेशन, उदाहरणार्थ, CT आणि MRI स्कॅन प्रतिमांवर आधारित आभासी वास्तव
  • शारीरिक सिम्युलेशन, विशेषतः फ्लुइड डायनॅमिक्समध्ये
  • मशीन लर्निंग समस्यांमध्‍ये न्यूरल नेटवर्क प्रशिक्षण
  • चेहरा ओळखणे
  • वितरित संगणकीय प्रकल्प, जसे की [ईमेल संरक्षित] आणि इतर प्रकल्प वापरून BOINC
  • मॉलिक्युलर डायनॅमिक्स
  • खनन क्रिप्टोकरन्सी
  • मोशन (SfM) सॉफ्टवेअरपासून रचना

टेन्सर कोर म्हणजे काय?

टेन्सर कोर नावाचे विशिष्ट कोर मिश्र-परिशुद्धता प्रशिक्षणासाठी परवानगी देतात. या स्पेशलाइज्ड कोरची सुरुवातीची पिढी हे फ्युज्ड मल्टीप्लाय-अॅड अल्गोरिदमसह करते. यामुळे 4 x 4 FP16 किंवा FP32 मॅट्रिक्समध्ये दोन 4 x 4 FP16 मॅट्रिक्स गुणाकार करणे आणि जोडणे शक्य होते.

अंतिम परिणाम FP32 असेल ज्यामध्ये केवळ सूक्ष्मता कमी होते, मिश्रित अचूक संगणन असे नियुक्त केले जाते तरीहीइनपुट मॅट्रिक्स कमी-परिशुद्धता FP16 असू शकतात.

अभ्यासात, हे मॉडेलच्या अंतिम परिणामकारकतेवर कमी प्रभावासह गणनांना लक्षणीयरीत्या गती देते. ही क्षमता नंतरच्या मायक्रोआर्किटेक्चरद्वारे अगदी कमी अचूक संगणक क्रमांक प्रतिनिधित्वापर्यंत वाढवली गेली.

V100 पासून व्होल्टा मायक्रोआर्किटेक्चरसह पहिली पिढी सादर करण्यात आली, प्रत्येक उत्तीर्ण पिढीसह नवीन GPU मायक्रोआर्किटेक्चरसह गणनेसाठी अधिक संगणक क्रमांक अचूक स्वरूप उपलब्ध करून देण्यात आले.

आम्ही पुढील विभागातील प्रत्येक मायक्रोआर्किटेक्चर जनरेशनसह टेन्सर कोरची क्षमता आणि कार्यक्षमता कशी बदलली आणि सुधारली याबद्दल बोलू.

Titan V ने बनवलेली ग्राफिकली रेंडर केलेली प्रतिमा

टेन्सर कोर कसे कार्य करतात?

पहिली पिढी:

व्होल्टा GPU मायक्रोआर्किटेक्चर टेन्सर कोरच्या पहिल्या पिढीसह समाविष्ट केले गेले. या कोरांमुळे मिश्र अचूकता आणि FP16 क्रमांकाच्या स्वरूपासह प्रशिक्षण देणे शक्य झाले.

यामध्ये ठराविक GPU साठी टेराफ्लॉप थ्रूपुटमध्ये 12x पर्यंत वाढ होऊ शकते. शीर्ष-स्तरीय V100 चे 640 कोर मागील पिढीच्या पास्कल GPU च्या तुलनेत कार्यप्रदर्शन गतीमध्ये 5x पर्यंत वाढ देतात.

दुसरी पिढी:

ट्युरिंग GPU च्या परिचयाने, टेन्सर कोरची दुसरी पिढी सादर करण्यात आली. Int8, Int4, आणि Int1 समर्थित टेन्सर कोर अचूकतेच्या सूचीमध्ये जोडले गेले होते, जेपूर्वी FP16 पर्यंत मर्यादित.

मिश्र अचूक प्रशिक्षण प्रक्रियेमुळे, GPU चे कार्यप्रदर्शन थ्रूपुट पास्कल GPU च्या तुलनेत 32 पटीने वाढले आहे.

तिसरी पिढी:

Ampere GPU मधील आर्किटेक्चर FP64, TF32 आणि bfloat16 अचूकतेसाठी समर्थन जोडून व्होल्टा आणि ट्युरिंग मायक्रोआर्किटेक्चर्सच्या पूर्वीच्या प्रगतीवर विस्तारित होते.

सखोल शिक्षण प्रशिक्षण आणि अनुमान क्रियाकलाप या अतिरिक्त अचूक स्वरूपांमुळे अधिक गतीमान होतात. उदाहरणार्थ, TF32 फॉरमॅट FP32 प्रमाणेच कार्य करते आणि कोणताही कोड न बदलता 20x स्पीडअपची हमी देते.

नंतर, कोडच्या फक्त काही ओळींसह, स्वयंचलित मिश्रित अचूक अंमलबजावणी प्रशिक्षणास अतिरिक्त 2x ने गती देईल.

तिसऱ्या पिढीतील NVLink हे अतिशय वेगवान मल्टी-GPU परस्परसंवाद सक्षम करण्यासाठी, थर्ड-जनरेशन रे ट्रेसिंग कोर आणि स्पेर्स मॅट्रिक्स गणितासह स्पेशलायझेशन हे अँपिअर मायक्रोआर्किटेक्चरचे अतिरिक्त पैलू आहेत .

चौथी पिढी:

हॉपर मायक्रोआर्किटेक्चर-आधारित चौथ्या पिढीच्या टेन्सर कोरचे भविष्यातील प्रकाशन नियोजित आहे. पुढील H100 मध्ये चौथ्या पिढीतील Tensor Cores.

जे मार्च 2022 मध्ये रिलीज होण्याची अपेक्षा आहे, FP8 अचूक स्वरूप हाताळण्यास सक्षम असेल आणि NVIDIA नुसार, प्रचंड भाषेच्या मॉडेल्सला "आश्चर्यकारक 30X ने गती देईल. मागील पिढीपेक्षा.”

आरटीएक्स ग्राफिक्स कार्ड आहेग्राफिक्स रेंडरींग करण्यासाठी वापरला जातो कारण त्यात टेन्सर कोर असतात.

CUDA कोर आणि टेन्सर कोर मधील फरक

टेन्सर कोर सध्या टायटन V आणि टेस्ला V100 पर्यंत मर्यादित आहेत. दोन्ही GPU वरील 5120 CUDA कोरमध्ये एक सिंगल प्रिसिजन गुणा-संचय ऑपरेशनची कमाल क्षमता आहे (उदाहरणार्थ, fp32: x += y * z मध्ये) प्रति GPU घड्याळ (उदा. Tesla V100 PCIe वारंवारता 1.38Gz आहे).

प्रत्येक टेन्सर कोर लहान मॅट्रिक्ससाठी 4×4 लहान मॅट्रिक्सवर कार्य करतो. प्रति एक GPU घड्याळ, प्रत्येक टेन्सर कोर एक मॅट्रिक्स गुणा-संचय ऑपरेशन पूर्ण करू शकतो.

हे दोन 4×4 FP16 मॅट्रिक्सचा गुणाकार करते आणि 4×4 FP32 मॅट्रिक्स जोडते ज्याचा परिणाम संचयक होतो (ते fp32 4×4 मॅट्रिक्स देखील आहे).

कारण इनपुट मॅट्रिक्स fp16 आहेत तर गुणाकार परिणाम आणि संचयक fp32 आहेत, अल्गोरिदम मिश्रित अचूक म्हणून ओळखले जाते.

योग्य संज्ञा फक्त "4×4 मॅट्रिक्स कोर" असू शकते, परंतु NVIDIA मार्केटिंग टीमने "टेन्सर कोर" वापरणे निवडले.

Tensor cores चे थोडक्यात स्पष्टीकरण

<23
GPU कार्ड CUDA cores VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 सुपर 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 सुपर 1408 4GB
GeForce GTX 1650 1024 आणि896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB)<22 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1GB किंवा 2 GB

GPUs ज्यात CUDA कोर असतात

निष्कर्ष

  • CUDA आणि Tensor cores ही उत्पादने आहेत, दोन्ही Nvidia नावाच्या कंपनीने विकसित केली आहेत. CUDA म्हणजे Compute Uniified Device Architecture. हे CUDA कोर तुमच्या GPUs, स्मार्टफोन्स आणि अगदी तुमच्या कारमध्ये आहेत.
  • जेव्हा Nvidia द्वारे विकसित केलेले टेन्सर कोर देखील GPU मध्ये वापरले जातात. "टेन्सर कोर" नावाचे विशेष कोर मिश्र-परिशुद्धता प्रशिक्षणासाठी परवानगी देतात. टेन्सर कोरच्या पहिल्या पिढीने मिश्र अचूकता आणि FP16 क्रमांक स्वरूपाने प्रशिक्षण देणे शक्य केले.
  • यामध्ये ठराविक GPU साठी टेराफ्लॉप थ्रूपुटमध्ये 12x पर्यंत वाढ होऊ शकते. Int8, Int4, आणि Int1 समर्थित टेन्सर कोर अचूकतेच्या सूचीमध्ये जोडले गेले.
  • मिश्र झाल्यामुळेअचूक प्रशिक्षण प्रक्रिया, GPU ची कार्यक्षमता 32 पटीने वाढली. टेन्सर कोरच्या हॉपर मायक्रोआर्किटेक्चर-आधारित चौथ्या पिढीचे भविष्यातील प्रकाशन नियोजित आहे.

इतर लेख

    Mary Davis

    मेरी डेव्हिस ही एक लेखिका, सामग्री निर्माता आणि विविध विषयांवर तुलनात्मक विश्लेषणात तज्ञ असलेली एक उत्साही संशोधक आहे. पत्रकारितेतील पदवी आणि या क्षेत्रातील पाच वर्षांचा अनुभव असलेल्या मेरीला तिच्या वाचकांपर्यंत निःपक्षपाती आणि सरळ माहिती पोहोचवण्याची आवड आहे. ती तरुण असतानाच तिच्या लेखनाची आवड निर्माण झाली होती आणि तिच्या लेखनातील यशस्वी कारकीर्दीमागे ती एक प्रेरक शक्ती आहे. समजण्यास सोप्या आणि आकर्षक स्वरूपात संशोधन करण्याची आणि निष्कर्ष सादर करण्याची मेरीची क्षमता तिला जगभरातील वाचकांसाठी प्रिय आहे. जेव्हा ती लिहित नाही, तेव्हा मेरीला प्रवास करणे, वाचणे आणि कुटुंब आणि मित्रांसह वेळ घालवणे आवडते.