CUDA கோர்களுக்கும் டென்சர் கோர்களுக்கும் என்ன வித்தியாசம்? (விளக்கப்பட்டது) - அனைத்து வேறுபாடுகளும்
உள்ளடக்க அட்டவணை
CUDA மற்றும் Tensor கோர்கள் Nvidia என்ற நிறுவனத்தால் உருவாக்கப்பட்ட தயாரிப்புகள். CUDA கோர்கள் மற்றும் டென்சர் கோர்கள் என்றால் என்ன? CUDA என்பது Compute Unified Device Architecture என்பதன் சுருக்கம். என்விடியா டெவலப்பர்கள் சொல்வது போல், CUDA கோர்கள் உங்கள் GPUகள், ஸ்மார்ட்போன்கள் மற்றும் உங்கள் கார்களிலும் உள்ளன.
CUDA கோர்கள் ஒரு இணையான கம்ப்யூட்டிங் தளம் மற்றும் பயன்பாட்டு நிரலாக்க இடைமுகம் (API) ஆகும், இது மென்பொருளை பொது-நோக்க செயலாக்கத்திற்காக குறிப்பிட்ட வகையான கிராபிக்ஸ் செயலாக்க அலகுகளை (GPUs) பயன்படுத்த உதவுகிறது.
என்விடியாவால் உருவாக்கப்பட்ட டென்சர் கோர்களும் GPU களில் பயன்படுத்தப்படுகின்றன. டென்சர் கோர்கள் கலப்பு-துல்லியமான கம்ப்யூட்டிங்கை செயல்படுத்துகின்றன, துல்லியத்தை பராமரிக்கும் போது செயல்திறனை அதிகரிக்க கணக்கீடுகளை மாறும் வகையில் மாற்றியமைக்கிறது.
எளிமையான வார்த்தைகளில், இந்த கோர்கள் சில கணக்கீடுகளைச் செய்ய உங்கள் கணினியில் உள்ள GPUகளின் முக்கிய பகுதியாகும். CUDA கோர்கள் இரண்டு எண்களைப் பெருக்கி மற்றொரு எண்ணுடன் சேர்க்கப் பயன்படுகின்றன.
டென்சர் கோர் ஒரே மாதிரியாக இருந்தாலும் 4×4 மெட்ரிக்குகளுடன் உள்ளது. இந்த கணக்கீடுகள் அடிப்படையில் உங்களுக்கு கிராபிக்ஸ் வேகமாக வழங்குகின்றன.
CUDA என்றால் என்ன?
சூன் 23, 2007 இல் வெளியிடப்பட்ட Nvidia ஆல் உருவாக்கப்பட்ட சுருக்கமான CUDA இன் கம்ப்யூட் யுனிஃபைட் டிவைஸ் ஆர்கிடெக்சர், ஒரு இணையான கணினி தளம் மற்றும் பயன்பாட்டு நிரலாக்க இடைமுகம் (API) ஆகும்.
அது. பொது-நோக்க செயலாக்கத்திற்கான குறிப்பிட்ட வகை வரைகலை செயலாக்க அலகுகளை (GPU கள்) பயன்படுத்த மென்பொருளை செயல்படுத்துகிறது, இது பொது-நோக்கு கணினி என அறியப்படுகிறது.GPUகள் (GPU).
CUDA என்பது GPU இன் மெய்நிகர் அறிவுறுத்தல் தொகுப்பு மற்றும் கம்ப்யூட் கர்னல்களை செயல்படுத்துவதற்கான இணையான கணக்கீட்டு கூறுகளுக்கு நேரடி அணுகலை வழங்கும் ஒரு மென்பொருள் அடுக்கு ஆகும். C, C++ மற்றும் Fortran உள்ளிட்ட பல்வேறு நிரலாக்க மொழிகளுடன் பணிபுரிய CUDA உருவாக்கப்பட்டது.
வெவ்வேறு நிரலாக்க மொழிகளுடன் பணிபுரியும் திறன், GPU ஆதாரங்களை நாங்கள் Direct3D அல்லது OpenGL போன்ற முந்தைய APIகளிலிருந்து வேறுபடுத்தினால், இணை நிரலாக்கத்தில் வல்லுநர்கள் பயன்படுத்துவதை எளிதாக்குகிறது, இதற்கு நீங்கள் இன்னும் மேம்பட்டதாக இருக்க வேண்டும். வரைகலை நிரலாக்கத்தில் திறன் அடிப்படை.
CUDA உடனான GPU ஆனது OpenMP, OpenACC, OpenCL மற்றும் HIP போன்ற நிரலாக்க கட்டமைப்புகளை ஆதரிக்கிறது, மேலும் அத்தகைய குறியீட்டை CUDA க்கு தொகுக்க முடியும். CUDA க்கு பயன்படுத்தப்பட்ட முதல் பெயர் கம்ப்யூட் யூனிஃபைட் டிவைஸ் ஆர்கிடெக்ச்சர் என்பதன் சுருக்கமாகும். இருப்பினும், என்விடியா பின்னர் பொதுவாக பயன்படுத்தப்படும் சுருக்கத்தை கைவிட்டது.
ஒரு சக்திவாய்ந்த என்விடியா கிராபிக்ஸ் அட்டை GTX 1080 Ti
CUDA பற்றி மேலும்
ஒரு சிறப்பு கணினி செயலியாக, கிராபிக்ஸ் செயலாக்க அலகு (GPU) உண்மையான தேவைகளை பூர்த்தி செய்கிறது -நேரம், கம்ப்யூட்-தீவிர 3D கிராபிக்ஸ் பணிச்சுமைகள்.
சுமார் 2012 GPUகள் உருவாகி, பெரிய தொகுதிகளுக்கான பயனுள்ள தரவு செயலாக்கத்தை செயல்படுத்தும் மிகவும் இணையான மல்டி-கோர் அமைப்புகளாக மாறிவிட்டன.
பெரிய அளவிலான தரவுகளை இணையாக செயலாக்கும் போது, இந்த வடிவமைப்பு அல்காரிதங்களுக்கான பொது-நோக்க மைய செயலாக்க அலகுகளை (CPUs) விட மேம்பட்டதாக இருக்கும், அதாவது:
- கிரிப்டோகிராஃபிக் ஹாஷ்செயல்பாடுகள்
- இயந்திர கற்றல்
- மூலக்கூறு இயக்கவியல் உருவகப்படுத்துதல்கள்
- இயற்பியல் இயந்திரங்கள்
- வரிசைப்படுத்து வழிமுறைகள்
CUDA கட்டிடக்கலையின் பயன்கள் இப்போது மற்றும் எதிர்காலத்தில்
- 3D கிராபிக்ஸின் துரிதப்படுத்தப்பட்ட ரெண்டரிங்
- வீடியோ கோப்பு வடிவங்களின் துரிதமான இடைமாற்றம்
- விரைவுபடுத்தப்பட்ட குறியாக்கம், மறைகுறியாக்கம் மற்றும் சுருக்கம்
- உயிர் தகவலியல், எ.கா., NGS DNA sequencing BarraCUDA
- விநியோகிக்கப்பட்ட கணக்கீடுகள், புரதங்களின் பூர்வீக இணக்கத்தை முன்னறிவிப்பது போன்றது
- மருத்துவ பகுப்பாய்வு உருவகப்படுத்துதல்கள், எடுத்துக்காட்டாக, CT மற்றும் MRI ஸ்கேன் படங்களின் அடிப்படையில் மெய்நிகர் உண்மை
- இயற்பியல் உருவகப்படுத்துதல்கள், குறிப்பாக திரவ இயக்கவியலில்
- மெஷின் லேர்னிங் பிரச்சனைகளில் நரம்பியல் நெட்வொர்க் பயிற்சி
- முகம் கண்டறிதல்
- விநியோகிக்கப்படும் கம்ப்யூட்டிங் திட்டங்கள், அதாவது [email protected] மற்றும் பிற திட்டங்கள் BOINC
- மூலக்கூறு இயக்கவியல்
- மைனிங் கிரிப்டோகரன்சிகள்
- கட்டமைப்பு இயக்கம் (SfM) மென்பொருள்
டென்சர் கோர் என்றால் என்ன?
டென்சர் கோர்ஸ் எனப்படும் சிறப்பு கோர்கள் கலப்பு துல்லியமான பயிற்சியை அனுமதிக்கின்றன. இந்த ஸ்பெஷலைஸ்டு கோர்களின் ஆரம்ப தலைமுறை இதை ஒரு இணைந்த பெருக்கல்-சேர் அல்காரிதம் மூலம் செய்கிறது. இது 4 x 4 FP16 அல்லது FP32 மேட்ரிக்ஸில் இரண்டு 4 x 4 FP16 மெட்ரிக்ஸைப் பெருக்கி சேர்க்கிறது.
இறுதி முடிவு FP32 ஆகும், இது ஒரு சிறிய துல்லியமான இழப்புடன் மட்டுமே இருக்கும், கலப்பு துல்லியமான கம்ப்யூட்டிங் அவ்வாறு குறிப்பிடப்படுகிறதுஉள்ளீட்டு மெட்ரிக்குகள் குறைந்த துல்லியமான FP16 ஆக இருக்கலாம்.
மேலும் பார்க்கவும்: இன்டர்கூலர்கள் VS ரேடியேட்டர்கள்: அதிக திறன் வாய்ந்தது எது? - அனைத்து வேறுபாடுகள்நடைமுறையில், இது மாதிரியின் இறுதி செயல்திறனில் சிறிய தாக்கத்துடன் கணக்கீடுகளை கணிசமாக வேகப்படுத்துகிறது. இந்தத் திறன் பிற்கால மைக்ரோஆர்கிடெக்சர்களால் இன்னும் குறைவான துல்லியமான கணினி எண் பிரதிநிதித்துவங்களுக்கு விரிவாக்கப்பட்டது.
V100 இல் தொடங்கும் வோல்டா மைக்ரோஆர்கிடெக்சருடன் முதல் தலைமுறை அறிமுகப்படுத்தப்பட்டது, ஒவ்வொரு தலைமுறைக்கும் புதிய GPU மைக்ரோஆர்கிடெக்சர்களுடன் கணக்கிடுவதற்கு அதிக கணினி எண் துல்லியமான வடிவங்கள் கிடைக்கப்பெற்றன.
மேலும் பார்க்கவும்: "முழு HD LED டிவி" VS. "அல்ட்ரா HD LED டிவி" (வேறுபாடு) - அனைத்து வேறுபாடுகள்டென்சர் கோர்களின் திறன் மற்றும் செயல்பாடுகள் ஒவ்வொரு மைக்ரோஆர்கிடெக்சர் தலைமுறையிலும் எவ்வாறு மாறியது மற்றும் மேம்படுத்தப்பட்டது என்பதைப் பற்றி பின்வரும் பிரிவில் பேசுவோம்.
டைட்டன் வி மூலம் வரைகலை முறையில் ரெண்டர் செய்யப்பட்ட படம்
டென்சர் கோர்கள் எப்படி வேலை செய்கிறது?
முதல் தலைமுறை:
வோல்டா GPU மைக்ரோஆர்கிடெக்சர் முதல் தலைமுறை டென்சர் கோர்களுடன் சேர்க்கப்பட்டது. இந்த கோர்கள் கலப்பு துல்லியம் மற்றும் FP16 எண் வடிவத்துடன் பயிற்சி பெறுவதை சாத்தியமாக்கியது.
சில GPUகளுக்கான டெராஃப்ளோப் செயல்திறனில் இது 12x ஊக்கத்தை அளிக்கும். டாப்-டையர் V100 இன் 640 கோர்கள் முந்தைய தலைமுறையின் Pascal GPUகளை விட செயல்திறன் வேகத்தில் 5x அதிகரிப்பைக் கொடுக்கின்றன.
இரண்டாம் தலைமுறை:
Turing GPUகளின் அறிமுகத்துடன், டென்சர் கோர்களின் இரண்டாம் தலைமுறை அறிமுகப்படுத்தப்பட்டது. Int8, Int4 மற்றும் Int1 ஆகியவை ஆதரிக்கப்படும் டென்சர் கோர் துல்லியங்களின் பட்டியலில் சேர்க்கப்பட்டன, அவைமுன்பு FP16 க்கு மட்டுப்படுத்தப்பட்டது.
கலப்பு துல்லியமான பயிற்சி நடைமுறைகள் காரணமாக, பாஸ்கல் GPUகளுடன் ஒப்பிடும்போது GPU இன் செயல்திறன் செயல்திறன் 32 மடங்கு வரை அதிகரித்துள்ளது.
மூன்றாம் தலைமுறை:
ஆம்பியர் GPU இல் உள்ள கட்டமைப்பு FP64, TF32 மற்றும் bfloat16 துல்லியங்களுக்கான ஆதரவைச் சேர்ப்பதன் மூலம் வோல்டா மற்றும் டூரிங் மைக்ரோஆர்கிடெக்சர்களின் முந்தைய முன்னேற்றங்களில் விரிவடைகிறது.
ஆழ்ந்த கற்றல் பயிற்சி மற்றும் அனுமான செயல்பாடுகள் இந்த கூடுதல் துல்லியமான வடிவங்களால் மிகவும் துரிதப்படுத்தப்படுகின்றன. எடுத்துக்காட்டாக, TF32 வடிவமைப்பு FP32 போலவே செயல்படுகிறது, அதே நேரத்தில் எந்த குறியீட்டையும் மாற்றாமல் 20x வேகத்திற்கு உத்தரவாதம் அளிக்கிறது.
பின்னர், ஒரு சில வரிக் குறியீடுகளுடன், தானியங்கு கலப்பு துல்லியமான செயலாக்கம் பயிற்சியை கூடுதலாக 2 மடங்கு அதிகரிக்கும்.
மூன்றாம் தலைமுறை NVLink, அனல் பறக்கும் வேகமான மல்டி-ஜிபியு இடைவினைகள், மூன்றாம் தலைமுறை ரே ட்ரேசிங் கோர்கள் மற்றும் ஸ்பேர்ஸ் மேட்ரிக்ஸ் கணிதத்துடன் கூடிய நிபுணத்துவம் ஆகியவை ஆம்பியர் மைக்ரோஆர்கிடெக்சரின் கூடுதல் அம்சங்களாகும் .
நான்காவது தலைமுறை:
ஹாப்பர் மைக்ரோஆர்கிடெக்சர் அடிப்படையிலான நான்காவது தலைமுறை டென்சர் கோர்களின் எதிர்கால வெளியீடு திட்டமிடப்பட்டுள்ளது. அடுத்த H100 இல் உள்ள நான்காவது தலைமுறை டென்சர் கோர்கள்.
இது மார்ச் 2022 இல் வெளியிடப்படும் என எதிர்பார்க்கப்படுகிறது, FP8 துல்லியமான வடிவங்களைக் கையாளக்கூடியது மற்றும் NVIDIA இன் படி, பெரிய மொழி மாதிரிகளை “வியக்கத்தக்க 30X மூலம் துரிதப்படுத்தும். முந்தைய தலைமுறையை விட.”
ஆர்டிஎக்ஸ் கிராபிக்ஸ் கார்டுடென்சர் கோர்களைக் கொண்டிருப்பதால், மிக வேகமாக கிராபிக்ஸ் ரெண்டரிங் செய்யப் பயன்படுகிறது.
CUDA கோர்கள் மற்றும் டென்சர் கோர்களுக்கு இடையே உள்ள வேறுபாடு
டென்சர் கோர்கள் தற்போது Titan V மற்றும் Tesla V100க்கு மட்டுமே. இரண்டு GPU களிலும் உள்ள 5120 CUDA கோர்கள் ஒரு GPU கடிகாரத்திற்கு ஒரு துல்லியமான பெருக்கல்-குவிப்பு செயல்பாட்டின் அதிகபட்ச திறனைக் கொண்டுள்ளன (எடுத்துக்காட்டாக, fp32: x += y * z) (எ.கா. டெஸ்லா V100 PCIe அதிர்வெண் 1.38Gz).
ஒவ்வொரு டென்சர் மையமும் சிறிய மெட்ரிக்குகளுக்கு 4×4 சிறிய மெட்ரிக்குகளில் இயங்குகிறது. ஒரு GPU கடிகாரத்திற்கு, ஒவ்வொரு டென்சர் மையமும் ஒரு மேட்ரிக்ஸ் மல்டிப்ளை-அக்யூமுலேட் செயல்பாட்டை முடிக்க முடியும்.
இது இரண்டு 4×4 FP16 மெட்ரிக்ஸைப் பெருக்கி 4×4 FP32 மேட்ரிக்ஸைச் சேர்க்கிறது, இதன் விளைவாக திரட்டி (அதுவும் fp32 4×4 மேட்ரிக்ஸ்).
உள்ளீட்டு மெட்ரிக்குகள் fp16 ஆகவும், பெருக்கல் முடிவுகள் மற்றும் திரட்டி fp32 ஆகவும் இருப்பதால், அல்காரிதம் கலப்பு துல்லியம் என அறியப்படுகிறது.
சரியான சொல் "4×4 மேட்ரிக்ஸ் கோர்கள்" ஆக இருக்கலாம், ஆனால் என்விடியா மார்க்கெட்டிங் குழு "டென்சர் கோர்களை" பயன்படுத்த தேர்வு செய்தது.
டென்சர் கோர்களின் முழு விளக்கம் சுருக்கமாக
GPU கார்டு | CUDA கோர்கள் | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB | GeForce GTX 1660 Super | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 Super | 1408 | 4GB |
GeForce GTX 1650 | 1024 மற்றும்896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
GeForce GTX 1060 6GB | 768 | 6GB |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
GeForce GTX 1050 (2GB) | 640 | 3GB |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB அல்லது 2 GB |
CUDA கோர்களைக் கொண்ட GPUகள்
முடிவு
- CUDA மற்றும் Tensor கோர்கள் தயாரிப்புகள், இவை இரண்டும் Nvidia என்ற நிறுவனத்தால் உருவாக்கப்பட்டது. CUDA என்பது Compute Unified Device Architecture என்பதன் சுருக்கம். இந்த CUDA கோர்கள் உங்கள் GPUகள், ஸ்மார்ட்போன்கள் மற்றும் உங்கள் கார்களிலும் உள்ளன.
- என்விடியாவால் உருவாக்கப்பட்ட டென்சர் கோர்களும் GPU களில் பயன்படுத்தப்படுகின்றன. "டென்சர் கோர்கள்" எனப்படும் சிறப்பு கோர்கள் கலப்பு துல்லியமான பயிற்சியை அனுமதிக்கின்றன. முதல் தலைமுறை டென்சர் கோர்கள் கலப்பு துல்லியம் மற்றும் FP16 எண் வடிவத்துடன் பயிற்சியளிப்பதை சாத்தியமாக்கியது.
- சில GPUகளுக்கான டெராஃப்ளோப் செயல்திறனில் இது 12x ஊக்கத்தை அளிக்கும். Int8, Int4 மற்றும் Int1 ஆகியவை ஆதரிக்கப்படும் டென்சர் கோர் துல்லியங்களின் பட்டியலில் சேர்க்கப்பட்டன.
- கலவை காரணமாகதுல்லியமான பயிற்சி நடைமுறைகள், GPU இன் செயல்திறன் 32 மடங்கு வரை அதிகரிக்கப்பட்டது. ஹாப்பர் மைக்ரோஆர்கிடெக்சர் அடிப்படையிலான நான்காவது தலைமுறை டென்சர் கோர்ஸின் எதிர்கால வெளியீடு திட்டமிடப்பட்டுள்ளது.