CUDA कोर आणि टेन्सर कोर मधील फरक काय आहे? (स्पष्टीकरण) – सर्व फरक
सामग्री सारणी
CUDA आणि Tensor cores ही Nvidia नावाच्या कंपनीने विकसित केलेली उत्पादने आहेत. तर CUDA कोर आणि टेन्सर कोर काय आहेत? CUDA म्हणजे Compute Uniified Device Architecture. CUDA कोर तुमच्या GPUs, स्मार्टफोन्समध्ये आणि अगदी तुमच्या कारमध्ये देखील असतात, जसे Nvidia डेव्हलपर म्हणतात.
CUDA कोर हे समांतर संगणकीय प्लॅटफॉर्म आणि ऍप्लिकेशन प्रोग्रामिंग इंटरफेस (API) आहेत जे सॉफ्टवेअरला सामान्य-उद्देशीय प्रक्रियेसाठी विशिष्ट प्रकारच्या ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) चा वापर करण्यास सक्षम करतात.
जेव्हा Nvidia ने विकसित केलेले टेन्सर कोर देखील GPU मध्ये वापरले जातात. टेन्सर कोर मिश्र-परिशुद्धता संगणन सक्षम करतात, अचूकता राखून थ्रूपुट वाढवण्यासाठी डायनॅमिक पद्धतीने गणना स्वीकारतात.
हे देखील पहा: dy/dx & मधील फरक dx/dy (वर्णन केलेले) - सर्व फरकसोप्या शब्दात, विशिष्ट गणना करण्यासाठी हे कोर तुमच्या PC मधील GPU चा एक महत्त्वाचा भाग आहेत. CUDA कोर दोन संख्यांचा गुणाकार करण्यासाठी आणि त्यांना दुसर्या संख्येत जोडण्यासाठी वापरले जातात.
जेव्हा टेन्सर कोर समान आहे परंतु 4×4 मॅट्रिकसह आहे. ही गणना मुळात तुमच्यासाठी ग्राफिक्स जलद प्रस्तुत करत आहेत.
CUDA म्हणजे काय?
23 जून 2007 रोजी रिलीझ केलेले Nvidia ने विकसित केलेले CUDA मध्ये कॉम्प्युट युनिफाइड डिव्हाइस आर्किटेक्चर हे एक समांतर संगणकीय प्लॅटफॉर्म आणि अॅप्लिकेशन प्रोग्रामिंग इंटरफेस (API) आहे.
ते सॉफ्टवेअरला सामान्य-उद्देशीय प्रक्रियेसाठी विशिष्ट प्रकारचे ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) वापरण्यास सक्षम करते, ही पद्धत सामान्य-उद्देश संगणन म्हणून ओळखली जातेGPUs (GPU).
CUDA हा एक सॉफ्टवेअर स्तर आहे जो GPU च्या व्हर्च्युअल इंस्ट्रक्शन सेटमध्ये थेट प्रवेश प्रदान करतो आणि कंप्यूट कर्नलच्या अंमलबजावणीसाठी समांतर संगणकीय घटक प्रदान करतो. C, C++ आणि Fortran यासह विविध प्रोग्रामिंग भाषांसह काम करण्यासाठी CUDA विकसित करण्यात आले.
वेगवेगळ्या प्रोग्रामिंग भाषांसह कार्य करण्याची क्षमता समांतर प्रोग्रामिंगमधील तज्ञांना GPU संसाधने वापरणे सोपे करते जर आम्ही ते Direct3D किंवा OpenGL सारख्या पूर्वीच्या API पासून वेगळे केले, ज्यासाठी तुम्हाला अधिक प्रगत असणे आवश्यक आहे. ग्राफिकल प्रोग्रामिंगमधील कौशल्याचा आधार.
CUDA सह GPU प्रोग्रामिंग फ्रेमवर्कचे समर्थन करते, जसे की OpenMP, OpenACC, OpenCL आणि HIP देखील जे असे कोड CUDA मध्ये संकलित करू शकतात. CUDA साठी वापरलेले पहिले नाव Compute Uniified Device Architecture चे संक्षिप्त रूप होते. तथापि, Nvidia ने नंतर सामान्यतः वापरले जाणारे परिवर्णी शब्द वगळले.
एक शक्तिशाली Nvidia ग्राफिक्स कार्ड GTX 1080 Ti
CUDA बद्दल अधिक
विशेष संगणक प्रोसेसर म्हणून, ग्राफिक्स प्रोसेसिंग युनिट (GPU) वास्तविक गरजा पूर्ण करते -वेळ, गणना-केंद्रित 3D ग्राफिक्स वर्कलोड्स.
हे देखील पहा: एक्वा, निळसर, टील आणि नीलमणी मधील फरक काय आहेत? - सर्व फरकसुमारे 2012 GPUs विकसित झाले आणि मोठ्या ब्लॉक्ससाठी प्रभावी डेटा प्रक्रिया सक्षम करणारी उच्च समांतर मल्टी-कोर प्रणाली बनली.
समांतर डेटाच्या मोठ्या ब्लॉक्सवर प्रक्रिया करताना, हे डिझाइन अल्गोरिदमसाठी सामान्य उद्देश सेंट्रल प्रोसेसिंग युनिट्स (CPUs) पेक्षा श्रेष्ठ आहे, जसे की:
- क्रिप्टोग्राफिक हॅशफंक्शन्स
- मशीन लर्निंग
- मॉलिक्युलर डायनॅमिक्स सिम्युलेशन
- भौतिक इंजिन
- सोर्ट अल्गोरिदम
आता CUDA आर्किटेक्चरचा वापर आणि भविष्यात
- 3D ग्राफिक्सचे प्रवेगक रेंडरिंग
- व्हिडिओ फाइल फॉरमॅटचे प्रवेगक आंतररूपांतरण
- त्वरित एन्क्रिप्शन, डिक्रिप्शन आणि कॉम्प्रेशन
- बायोइन्फॉरमॅटिक्स, उदा., NGS DNA अनुक्रमणिका BarraCUDA
- वितरित गणना, जसे की प्रथिनांच्या मूळ स्वरूपाचा अंदाज लावणे
- वैद्यकीय विश्लेषण सिम्युलेशन, उदाहरणार्थ, CT आणि MRI स्कॅन प्रतिमांवर आधारित आभासी वास्तव
- शारीरिक सिम्युलेशन, विशेषतः फ्लुइड डायनॅमिक्समध्ये
- मशीन लर्निंग समस्यांमध्ये न्यूरल नेटवर्क प्रशिक्षण
- चेहरा ओळखणे
- वितरित संगणकीय प्रकल्प, जसे की [ईमेल संरक्षित] आणि इतर प्रकल्प वापरून BOINC
- मॉलिक्युलर डायनॅमिक्स
- खनन क्रिप्टोकरन्सी
- मोशन (SfM) सॉफ्टवेअरपासून रचना
टेन्सर कोर म्हणजे काय?
टेन्सर कोर नावाचे विशिष्ट कोर मिश्र-परिशुद्धता प्रशिक्षणासाठी परवानगी देतात. या स्पेशलाइज्ड कोरची सुरुवातीची पिढी हे फ्युज्ड मल्टीप्लाय-अॅड अल्गोरिदमसह करते. यामुळे 4 x 4 FP16 किंवा FP32 मॅट्रिक्समध्ये दोन 4 x 4 FP16 मॅट्रिक्स गुणाकार करणे आणि जोडणे शक्य होते.
अंतिम परिणाम FP32 असेल ज्यामध्ये केवळ सूक्ष्मता कमी होते, मिश्रित अचूक संगणन असे नियुक्त केले जाते तरीहीइनपुट मॅट्रिक्स कमी-परिशुद्धता FP16 असू शकतात.
अभ्यासात, हे मॉडेलच्या अंतिम परिणामकारकतेवर कमी प्रभावासह गणनांना लक्षणीयरीत्या गती देते. ही क्षमता नंतरच्या मायक्रोआर्किटेक्चरद्वारे अगदी कमी अचूक संगणक क्रमांक प्रतिनिधित्वापर्यंत वाढवली गेली.
V100 पासून व्होल्टा मायक्रोआर्किटेक्चरसह पहिली पिढी सादर करण्यात आली, प्रत्येक उत्तीर्ण पिढीसह नवीन GPU मायक्रोआर्किटेक्चरसह गणनेसाठी अधिक संगणक क्रमांक अचूक स्वरूप उपलब्ध करून देण्यात आले.
आम्ही पुढील विभागातील प्रत्येक मायक्रोआर्किटेक्चर जनरेशनसह टेन्सर कोरची क्षमता आणि कार्यक्षमता कशी बदलली आणि सुधारली याबद्दल बोलू.
Titan V ने बनवलेली ग्राफिकली रेंडर केलेली प्रतिमा
टेन्सर कोर कसे कार्य करतात?
पहिली पिढी:
व्होल्टा GPU मायक्रोआर्किटेक्चर टेन्सर कोरच्या पहिल्या पिढीसह समाविष्ट केले गेले. या कोरांमुळे मिश्र अचूकता आणि FP16 क्रमांकाच्या स्वरूपासह प्रशिक्षण देणे शक्य झाले.
यामध्ये ठराविक GPU साठी टेराफ्लॉप थ्रूपुटमध्ये 12x पर्यंत वाढ होऊ शकते. शीर्ष-स्तरीय V100 चे 640 कोर मागील पिढीच्या पास्कल GPU च्या तुलनेत कार्यप्रदर्शन गतीमध्ये 5x पर्यंत वाढ देतात.
दुसरी पिढी:
ट्युरिंग GPU च्या परिचयाने, टेन्सर कोरची दुसरी पिढी सादर करण्यात आली. Int8, Int4, आणि Int1 समर्थित टेन्सर कोर अचूकतेच्या सूचीमध्ये जोडले गेले होते, जेपूर्वी FP16 पर्यंत मर्यादित.
मिश्र अचूक प्रशिक्षण प्रक्रियेमुळे, GPU चे कार्यप्रदर्शन थ्रूपुट पास्कल GPU च्या तुलनेत 32 पटीने वाढले आहे.
तिसरी पिढी:
Ampere GPU मधील आर्किटेक्चर FP64, TF32 आणि bfloat16 अचूकतेसाठी समर्थन जोडून व्होल्टा आणि ट्युरिंग मायक्रोआर्किटेक्चर्सच्या पूर्वीच्या प्रगतीवर विस्तारित होते.
सखोल शिक्षण प्रशिक्षण आणि अनुमान क्रियाकलाप या अतिरिक्त अचूक स्वरूपांमुळे अधिक गतीमान होतात. उदाहरणार्थ, TF32 फॉरमॅट FP32 प्रमाणेच कार्य करते आणि कोणताही कोड न बदलता 20x स्पीडअपची हमी देते.
नंतर, कोडच्या फक्त काही ओळींसह, स्वयंचलित मिश्रित अचूक अंमलबजावणी प्रशिक्षणास अतिरिक्त 2x ने गती देईल.
तिसऱ्या पिढीतील NVLink हे अतिशय वेगवान मल्टी-GPU परस्परसंवाद सक्षम करण्यासाठी, थर्ड-जनरेशन रे ट्रेसिंग कोर आणि स्पेर्स मॅट्रिक्स गणितासह स्पेशलायझेशन हे अँपिअर मायक्रोआर्किटेक्चरचे अतिरिक्त पैलू आहेत .
चौथी पिढी:
हॉपर मायक्रोआर्किटेक्चर-आधारित चौथ्या पिढीच्या टेन्सर कोरचे भविष्यातील प्रकाशन नियोजित आहे. पुढील H100 मध्ये चौथ्या पिढीतील Tensor Cores.
जे मार्च 2022 मध्ये रिलीज होण्याची अपेक्षा आहे, FP8 अचूक स्वरूप हाताळण्यास सक्षम असेल आणि NVIDIA नुसार, प्रचंड भाषेच्या मॉडेल्सला "आश्चर्यकारक 30X ने गती देईल. मागील पिढीपेक्षा.”
आरटीएक्स ग्राफिक्स कार्ड आहेग्राफिक्स रेंडरींग करण्यासाठी वापरला जातो कारण त्यात टेन्सर कोर असतात.
CUDA कोर आणि टेन्सर कोर मधील फरक
टेन्सर कोर सध्या टायटन V आणि टेस्ला V100 पर्यंत मर्यादित आहेत. दोन्ही GPU वरील 5120 CUDA कोरमध्ये एक सिंगल प्रिसिजन गुणा-संचय ऑपरेशनची कमाल क्षमता आहे (उदाहरणार्थ, fp32: x += y * z मध्ये) प्रति GPU घड्याळ (उदा. Tesla V100 PCIe वारंवारता 1.38Gz आहे).
प्रत्येक टेन्सर कोर लहान मॅट्रिक्ससाठी 4×4 लहान मॅट्रिक्सवर कार्य करतो. प्रति एक GPU घड्याळ, प्रत्येक टेन्सर कोर एक मॅट्रिक्स गुणा-संचय ऑपरेशन पूर्ण करू शकतो.
हे दोन 4×4 FP16 मॅट्रिक्सचा गुणाकार करते आणि 4×4 FP32 मॅट्रिक्स जोडते ज्याचा परिणाम संचयक होतो (ते fp32 4×4 मॅट्रिक्स देखील आहे).
कारण इनपुट मॅट्रिक्स fp16 आहेत तर गुणाकार परिणाम आणि संचयक fp32 आहेत, अल्गोरिदम मिश्रित अचूक म्हणून ओळखले जाते.
योग्य संज्ञा फक्त "4×4 मॅट्रिक्स कोर" असू शकते, परंतु NVIDIA मार्केटिंग टीमने "टेन्सर कोर" वापरणे निवडले.
Tensor cores चे थोडक्यात स्पष्टीकरण
GPU कार्ड | CUDA cores | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB |
GeForce GTX 1660 सुपर | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 सुपर | 1408 | 4GB |
GeForce GTX 1650 | 1024 आणि896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
GeForce GTX 1060 6GB | 768 | 6GB |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
GeForce GTX 1050 (2GB)<22 | 640 | 3GB |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB किंवा 2 GB |
GPUs ज्यात CUDA कोर असतात
निष्कर्ष
- CUDA आणि Tensor cores ही उत्पादने आहेत, दोन्ही Nvidia नावाच्या कंपनीने विकसित केली आहेत. CUDA म्हणजे Compute Uniified Device Architecture. हे CUDA कोर तुमच्या GPUs, स्मार्टफोन्स आणि अगदी तुमच्या कारमध्ये आहेत.
- जेव्हा Nvidia द्वारे विकसित केलेले टेन्सर कोर देखील GPU मध्ये वापरले जातात. "टेन्सर कोर" नावाचे विशेष कोर मिश्र-परिशुद्धता प्रशिक्षणासाठी परवानगी देतात. टेन्सर कोरच्या पहिल्या पिढीने मिश्र अचूकता आणि FP16 क्रमांक स्वरूपाने प्रशिक्षण देणे शक्य केले.
- यामध्ये ठराविक GPU साठी टेराफ्लॉप थ्रूपुटमध्ये 12x पर्यंत वाढ होऊ शकते. Int8, Int4, आणि Int1 समर्थित टेन्सर कोर अचूकतेच्या सूचीमध्ये जोडले गेले.
- मिश्र झाल्यामुळेअचूक प्रशिक्षण प्रक्रिया, GPU ची कार्यक्षमता 32 पटीने वाढली. टेन्सर कोरच्या हॉपर मायक्रोआर्किटेक्चर-आधारित चौथ्या पिढीचे भविष्यातील प्रकाशन नियोजित आहे.