CUDA कोर आणि टेन्सर कोर मधील फरक काय आहे? (स्पष्टीकरण) – सर्व फरक

01-08-202301-08-2023 Mary Davis

सामग्री सारणी

CUDA आणि Tensor cores ही Nvidia नावाच्या कंपनीने विकसित केलेली उत्पादने आहेत. तर CUDA कोर आणि टेन्सर कोर काय आहेत? CUDA म्हणजे Compute Uniified Device Architecture. CUDA कोर तुमच्या GPUs, स्मार्टफोन्समध्ये आणि अगदी तुमच्या कारमध्ये देखील असतात, जसे Nvidia डेव्हलपर म्हणतात.

CUDA कोर हे समांतर संगणकीय प्लॅटफॉर्म आणि ऍप्लिकेशन प्रोग्रामिंग इंटरफेस (API) आहेत जे सॉफ्टवेअरला सामान्य-उद्देशीय प्रक्रियेसाठी विशिष्ट प्रकारच्या ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) चा वापर करण्यास सक्षम करतात.

जेव्हा Nvidia ने विकसित केलेले टेन्सर कोर देखील GPU मध्ये वापरले जातात. टेन्सर कोर मिश्र-परिशुद्धता संगणन सक्षम करतात, अचूकता राखून थ्रूपुट वाढवण्यासाठी डायनॅमिक पद्धतीने गणना स्वीकारतात.

हे देखील पहा: dy/dx & मधील फरक dx/dy (वर्णन केलेले) - सर्व फरक

सोप्या शब्दात, विशिष्ट गणना करण्यासाठी हे कोर तुमच्या PC मधील GPU चा एक महत्त्वाचा भाग आहेत. CUDA कोर दोन संख्यांचा गुणाकार करण्यासाठी आणि त्यांना दुसर्‍या संख्येत जोडण्यासाठी वापरले जातात.

जेव्हा टेन्सर कोर समान आहे परंतु 4×4 मॅट्रिकसह आहे. ही गणना मुळात तुमच्यासाठी ग्राफिक्स जलद प्रस्तुत करत आहेत.

CUDA म्हणजे काय?

23 जून 2007 रोजी रिलीझ केलेले Nvidia ने विकसित केलेले CUDA मध्ये कॉम्प्युट युनिफाइड डिव्हाइस आर्किटेक्चर हे एक समांतर संगणकीय प्लॅटफॉर्म आणि अॅप्लिकेशन प्रोग्रामिंग इंटरफेस (API) आहे.

ते सॉफ्टवेअरला सामान्य-उद्देशीय प्रक्रियेसाठी विशिष्ट प्रकारचे ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) वापरण्यास सक्षम करते, ही पद्धत सामान्य-उद्देश संगणन म्हणून ओळखली जातेGPUs (GPU).

CUDA हा एक सॉफ्टवेअर स्तर आहे जो GPU च्या व्हर्च्युअल इंस्ट्रक्शन सेटमध्ये थेट प्रवेश प्रदान करतो आणि कंप्यूट कर्नलच्या अंमलबजावणीसाठी समांतर संगणकीय घटक प्रदान करतो. C, C++ आणि Fortran यासह विविध प्रोग्रामिंग भाषांसह काम करण्यासाठी CUDA विकसित करण्यात आले.

वेगवेगळ्या प्रोग्रामिंग भाषांसह कार्य करण्याची क्षमता समांतर प्रोग्रामिंगमधील तज्ञांना GPU संसाधने वापरणे सोपे करते जर आम्ही ते Direct3D किंवा OpenGL सारख्या पूर्वीच्या API पासून वेगळे केले, ज्यासाठी तुम्हाला अधिक प्रगत असणे आवश्यक आहे. ग्राफिकल प्रोग्रामिंगमधील कौशल्याचा आधार.

CUDA सह GPU प्रोग्रामिंग फ्रेमवर्कचे समर्थन करते, जसे की OpenMP, OpenACC, OpenCL आणि HIP देखील जे असे कोड CUDA मध्ये संकलित करू शकतात. CUDA साठी वापरलेले पहिले नाव Compute Uniified Device Architecture चे संक्षिप्त रूप होते. तथापि, Nvidia ने नंतर सामान्यतः वापरले जाणारे परिवर्णी शब्द वगळले.

एक शक्तिशाली Nvidia ग्राफिक्स कार्ड GTX 1080 Ti

CUDA बद्दल अधिक

विशेष संगणक प्रोसेसर म्हणून, ग्राफिक्स प्रोसेसिंग युनिट (GPU) वास्तविक गरजा पूर्ण करते -वेळ, गणना-केंद्रित 3D ग्राफिक्स वर्कलोड्स.

हे देखील पहा: एक्वा, निळसर, टील आणि नीलमणी मधील फरक काय आहेत? - सर्व फरक

सुमारे 2012 GPUs विकसित झाले आणि मोठ्या ब्लॉक्ससाठी प्रभावी डेटा प्रक्रिया सक्षम करणारी उच्च समांतर मल्टी-कोर प्रणाली बनली.

समांतर डेटाच्या मोठ्या ब्लॉक्सवर प्रक्रिया करताना, हे डिझाइन अल्गोरिदमसाठी सामान्य उद्देश सेंट्रल प्रोसेसिंग युनिट्स (CPUs) पेक्षा श्रेष्ठ आहे, जसे की:

क्रिप्टोग्राफिक हॅशफंक्शन्स
मशीन लर्निंग
मॉलिक्युलर डायनॅमिक्स सिम्युलेशन
भौतिक इंजिन
सोर्ट अल्गोरिदम

आता CUDA आर्किटेक्चरचा वापर आणि भविष्यात

3D ग्राफिक्सचे प्रवेगक रेंडरिंग
व्हिडिओ फाइल फॉरमॅटचे प्रवेगक आंतररूपांतरण
त्वरित एन्क्रिप्शन, डिक्रिप्शन आणि कॉम्प्रेशन
बायोइन्फॉरमॅटिक्स, उदा., NGS DNA अनुक्रमणिका BarraCUDA
वितरित गणना, जसे की प्रथिनांच्या मूळ स्वरूपाचा अंदाज लावणे
वैद्यकीय विश्लेषण सिम्युलेशन, उदाहरणार्थ, CT आणि MRI स्कॅन प्रतिमांवर आधारित आभासी वास्तव
शारीरिक सिम्युलेशन, विशेषतः फ्लुइड डायनॅमिक्समध्ये
मशीन लर्निंग समस्यांमध्‍ये न्यूरल नेटवर्क प्रशिक्षण
चेहरा ओळखणे
वितरित संगणकीय प्रकल्प, जसे की [ईमेल संरक्षित] आणि इतर प्रकल्प वापरून BOINC
मॉलिक्युलर डायनॅमिक्स
खनन क्रिप्टोकरन्सी
मोशन (SfM) सॉफ्टवेअरपासून रचना

टेन्सर कोर म्हणजे काय?

टेन्सर कोर नावाचे विशिष्ट कोर मिश्र-परिशुद्धता प्रशिक्षणासाठी परवानगी देतात. या स्पेशलाइज्ड कोरची सुरुवातीची पिढी हे फ्युज्ड मल्टीप्लाय-अॅड अल्गोरिदमसह करते. यामुळे 4 x 4 FP16 किंवा FP32 मॅट्रिक्समध्ये दोन 4 x 4 FP16 मॅट्रिक्स गुणाकार करणे आणि जोडणे शक्य होते.

अंतिम परिणाम FP32 असेल ज्यामध्ये केवळ सूक्ष्मता कमी होते, मिश्रित अचूक संगणन असे नियुक्त केले जाते तरीहीइनपुट मॅट्रिक्स कमी-परिशुद्धता FP16 असू शकतात.

अभ्यासात, हे मॉडेलच्या अंतिम परिणामकारकतेवर कमी प्रभावासह गणनांना लक्षणीयरीत्या गती देते. ही क्षमता नंतरच्या मायक्रोआर्किटेक्चरद्वारे अगदी कमी अचूक संगणक क्रमांक प्रतिनिधित्वापर्यंत वाढवली गेली.

V100 पासून व्होल्टा मायक्रोआर्किटेक्चरसह पहिली पिढी सादर करण्यात आली, प्रत्येक उत्तीर्ण पिढीसह नवीन GPU मायक्रोआर्किटेक्चरसह गणनेसाठी अधिक संगणक क्रमांक अचूक स्वरूप उपलब्ध करून देण्यात आले.

आम्ही पुढील विभागातील प्रत्येक मायक्रोआर्किटेक्चर जनरेशनसह टेन्सर कोरची क्षमता आणि कार्यक्षमता कशी बदलली आणि सुधारली याबद्दल बोलू.

Titan V ने बनवलेली ग्राफिकली रेंडर केलेली प्रतिमा

टेन्सर कोर कसे कार्य करतात?

पहिली पिढी:

व्होल्टा GPU मायक्रोआर्किटेक्चर टेन्सर कोरच्या पहिल्या पिढीसह समाविष्ट केले गेले. या कोरांमुळे मिश्र अचूकता आणि FP16 क्रमांकाच्या स्वरूपासह प्रशिक्षण देणे शक्य झाले.

यामध्ये ठराविक GPU साठी टेराफ्लॉप थ्रूपुटमध्ये 12x पर्यंत वाढ होऊ शकते. शीर्ष-स्तरीय V100 चे 640 कोर मागील पिढीच्या पास्कल GPU च्या तुलनेत कार्यप्रदर्शन गतीमध्ये 5x पर्यंत वाढ देतात.

दुसरी पिढी:

ट्युरिंग GPU च्या परिचयाने, टेन्सर कोरची दुसरी पिढी सादर करण्यात आली. Int8, Int4, आणि Int1 समर्थित टेन्सर कोर अचूकतेच्या सूचीमध्ये जोडले गेले होते, जेपूर्वी FP16 पर्यंत मर्यादित.

मिश्र अचूक प्रशिक्षण प्रक्रियेमुळे, GPU चे कार्यप्रदर्शन थ्रूपुट पास्कल GPU च्या तुलनेत 32 पटीने वाढले आहे.

तिसरी पिढी:

Ampere GPU मधील आर्किटेक्चर FP64, TF32 आणि bfloat16 अचूकतेसाठी समर्थन जोडून व्होल्टा आणि ट्युरिंग मायक्रोआर्किटेक्चर्सच्या पूर्वीच्या प्रगतीवर विस्तारित होते.

सखोल शिक्षण प्रशिक्षण आणि अनुमान क्रियाकलाप या अतिरिक्त अचूक स्वरूपांमुळे अधिक गतीमान होतात. उदाहरणार्थ, TF32 फॉरमॅट FP32 प्रमाणेच कार्य करते आणि कोणताही कोड न बदलता 20x स्पीडअपची हमी देते.

नंतर, कोडच्या फक्त काही ओळींसह, स्वयंचलित मिश्रित अचूक अंमलबजावणी प्रशिक्षणास अतिरिक्त 2x ने गती देईल.

तिसऱ्या पिढीतील NVLink हे अतिशय वेगवान मल्टी-GPU परस्परसंवाद सक्षम करण्यासाठी, थर्ड-जनरेशन रे ट्रेसिंग कोर आणि स्पेर्स मॅट्रिक्स गणितासह स्पेशलायझेशन हे अँपिअर मायक्रोआर्किटेक्चरचे अतिरिक्त पैलू आहेत .

चौथी पिढी:

हॉपर मायक्रोआर्किटेक्चर-आधारित चौथ्या पिढीच्या टेन्सर कोरचे भविष्यातील प्रकाशन नियोजित आहे. पुढील H100 मध्ये चौथ्या पिढीतील Tensor Cores.

जे मार्च 2022 मध्ये रिलीज होण्याची अपेक्षा आहे, FP8 अचूक स्वरूप हाताळण्यास सक्षम असेल आणि NVIDIA नुसार, प्रचंड भाषेच्या मॉडेल्सला "आश्चर्यकारक 30X ने गती देईल. मागील पिढीपेक्षा.”

आरटीएक्स ग्राफिक्स कार्ड आहेग्राफिक्स रेंडरींग करण्यासाठी वापरला जातो कारण त्यात टेन्सर कोर असतात.

CUDA कोर आणि टेन्सर कोर मधील फरक

टेन्सर कोर सध्या टायटन V आणि टेस्ला V100 पर्यंत मर्यादित आहेत. दोन्ही GPU वरील 5120 CUDA कोरमध्ये एक सिंगल प्रिसिजन गुणा-संचय ऑपरेशनची कमाल क्षमता आहे (उदाहरणार्थ, fp32: x += y * z मध्ये) प्रति GPU घड्याळ (उदा. Tesla V100 PCIe वारंवारता 1.38Gz आहे).

प्रत्येक टेन्सर कोर लहान मॅट्रिक्ससाठी 4×4 लहान मॅट्रिक्सवर कार्य करतो. प्रति एक GPU घड्याळ, प्रत्येक टेन्सर कोर एक मॅट्रिक्स गुणा-संचय ऑपरेशन पूर्ण करू शकतो.

हे दोन 4×4 FP16 मॅट्रिक्सचा गुणाकार करते आणि 4×4 FP32 मॅट्रिक्स जोडते ज्याचा परिणाम संचयक होतो (ते fp32 4×4 मॅट्रिक्स देखील आहे).

कारण इनपुट मॅट्रिक्स fp16 आहेत तर गुणाकार परिणाम आणि संचयक fp32 आहेत, अल्गोरिदम मिश्रित अचूक म्हणून ओळखले जाते.

योग्य संज्ञा फक्त "4×4 मॅट्रिक्स कोर" असू शकते, परंतु NVIDIA मार्केटिंग टीमने "टेन्सर कोर" वापरणे निवडले.

Tensor cores चे थोडक्यात स्पष्टीकरण

<23

GPU कार्ड	CUDA cores	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 सुपर	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 सुपर	1408	4GB
GeForce GTX 1650	1024 आणि896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)<22	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB किंवा 2 GB

GPUs ज्यात CUDA कोर असतात

निष्कर्ष

CUDA आणि Tensor cores ही उत्पादने आहेत, दोन्ही Nvidia नावाच्या कंपनीने विकसित केली आहेत. CUDA म्हणजे Compute Uniified Device Architecture. हे CUDA कोर तुमच्या GPUs, स्मार्टफोन्स आणि अगदी तुमच्या कारमध्ये आहेत.
जेव्हा Nvidia द्वारे विकसित केलेले टेन्सर कोर देखील GPU मध्ये वापरले जातात. "टेन्सर कोर" नावाचे विशेष कोर मिश्र-परिशुद्धता प्रशिक्षणासाठी परवानगी देतात. टेन्सर कोरच्या पहिल्या पिढीने मिश्र अचूकता आणि FP16 क्रमांक स्वरूपाने प्रशिक्षण देणे शक्य केले.
यामध्ये ठराविक GPU साठी टेराफ्लॉप थ्रूपुटमध्ये 12x पर्यंत वाढ होऊ शकते. Int8, Int4, आणि Int1 समर्थित टेन्सर कोर अचूकतेच्या सूचीमध्ये जोडले गेले.
मिश्र झाल्यामुळेअचूक प्रशिक्षण प्रक्रिया, GPU ची कार्यक्षमता 32 पटीने वाढली. टेन्सर कोरच्या हॉपर मायक्रोआर्किटेक्चर-आधारित चौथ्या पिढीचे भविष्यातील प्रकाशन नियोजित आहे.

#SNIGCONSULTANCY