CUDA கோர்களுக்கும் டென்சர் கோர்களுக்கும் என்ன வித்தியாசம்? (விளக்கப்பட்டது) - அனைத்து வேறுபாடுகளும்

01-08-202301-08-2023 Mary Davis

உள்ளடக்க அட்டவணை

CUDA மற்றும் Tensor கோர்கள் Nvidia என்ற நிறுவனத்தால் உருவாக்கப்பட்ட தயாரிப்புகள். CUDA கோர்கள் மற்றும் டென்சர் கோர்கள் என்றால் என்ன? CUDA என்பது Compute Unified Device Architecture என்பதன் சுருக்கம். என்விடியா டெவலப்பர்கள் சொல்வது போல், CUDA கோர்கள் உங்கள் GPUகள், ஸ்மார்ட்போன்கள் மற்றும் உங்கள் கார்களிலும் உள்ளன.

CUDA கோர்கள் ஒரு இணையான கம்ப்யூட்டிங் தளம் மற்றும் பயன்பாட்டு நிரலாக்க இடைமுகம் (API) ஆகும், இது மென்பொருளை பொது-நோக்க செயலாக்கத்திற்காக குறிப்பிட்ட வகையான கிராபிக்ஸ் செயலாக்க அலகுகளை (GPUs) பயன்படுத்த உதவுகிறது.

என்விடியாவால் உருவாக்கப்பட்ட டென்சர் கோர்களும் GPU களில் பயன்படுத்தப்படுகின்றன. டென்சர் கோர்கள் கலப்பு-துல்லியமான கம்ப்யூட்டிங்கை செயல்படுத்துகின்றன, துல்லியத்தை பராமரிக்கும் போது செயல்திறனை அதிகரிக்க கணக்கீடுகளை மாறும் வகையில் மாற்றியமைக்கிறது.

எளிமையான வார்த்தைகளில், இந்த கோர்கள் சில கணக்கீடுகளைச் செய்ய உங்கள் கணினியில் உள்ள GPUகளின் முக்கிய பகுதியாகும். CUDA கோர்கள் இரண்டு எண்களைப் பெருக்கி மற்றொரு எண்ணுடன் சேர்க்கப் பயன்படுகின்றன.

டென்சர் கோர் ஒரே மாதிரியாக இருந்தாலும் 4×4 மெட்ரிக்குகளுடன் உள்ளது. இந்த கணக்கீடுகள் அடிப்படையில் உங்களுக்கு கிராபிக்ஸ் வேகமாக வழங்குகின்றன.

CUDA என்றால் என்ன?

சூன் 23, 2007 இல் வெளியிடப்பட்ட Nvidia ஆல் உருவாக்கப்பட்ட சுருக்கமான CUDA இன் கம்ப்யூட் யுனிஃபைட் டிவைஸ் ஆர்கிடெக்சர், ஒரு இணையான கணினி தளம் மற்றும் பயன்பாட்டு நிரலாக்க இடைமுகம் (API) ஆகும்.

அது. பொது-நோக்க செயலாக்கத்திற்கான குறிப்பிட்ட வகை வரைகலை செயலாக்க அலகுகளை (GPU கள்) பயன்படுத்த மென்பொருளை செயல்படுத்துகிறது, இது பொது-நோக்கு கணினி என அறியப்படுகிறது.GPUகள் (GPU).

CUDA என்பது GPU இன் மெய்நிகர் அறிவுறுத்தல் தொகுப்பு மற்றும் கம்ப்யூட் கர்னல்களை செயல்படுத்துவதற்கான இணையான கணக்கீட்டு கூறுகளுக்கு நேரடி அணுகலை வழங்கும் ஒரு மென்பொருள் அடுக்கு ஆகும். C, C++ மற்றும் Fortran உள்ளிட்ட பல்வேறு நிரலாக்க மொழிகளுடன் பணிபுரிய CUDA உருவாக்கப்பட்டது.

வெவ்வேறு நிரலாக்க மொழிகளுடன் பணிபுரியும் திறன், GPU ஆதாரங்களை நாங்கள் Direct3D அல்லது OpenGL போன்ற முந்தைய APIகளிலிருந்து வேறுபடுத்தினால், இணை நிரலாக்கத்தில் வல்லுநர்கள் பயன்படுத்துவதை எளிதாக்குகிறது, இதற்கு நீங்கள் இன்னும் மேம்பட்டதாக இருக்க வேண்டும். வரைகலை நிரலாக்கத்தில் திறன் அடிப்படை.

CUDA உடனான GPU ஆனது OpenMP, OpenACC, OpenCL மற்றும் HIP போன்ற நிரலாக்க கட்டமைப்புகளை ஆதரிக்கிறது, மேலும் அத்தகைய குறியீட்டை CUDA க்கு தொகுக்க முடியும். CUDA க்கு பயன்படுத்தப்பட்ட முதல் பெயர் கம்ப்யூட் யூனிஃபைட் டிவைஸ் ஆர்கிடெக்ச்சர் என்பதன் சுருக்கமாகும். இருப்பினும், என்விடியா பின்னர் பொதுவாக பயன்படுத்தப்படும் சுருக்கத்தை கைவிட்டது.

ஒரு சக்திவாய்ந்த என்விடியா கிராபிக்ஸ் அட்டை GTX 1080 Ti

CUDA பற்றி மேலும்

ஒரு சிறப்பு கணினி செயலியாக, கிராபிக்ஸ் செயலாக்க அலகு (GPU) உண்மையான தேவைகளை பூர்த்தி செய்கிறது -நேரம், கம்ப்யூட்-தீவிர 3D கிராபிக்ஸ் பணிச்சுமைகள்.

சுமார் 2012 GPUகள் உருவாகி, பெரிய தொகுதிகளுக்கான பயனுள்ள தரவு செயலாக்கத்தை செயல்படுத்தும் மிகவும் இணையான மல்டி-கோர் அமைப்புகளாக மாறிவிட்டன.

பெரிய அளவிலான தரவுகளை இணையாக செயலாக்கும் போது, இந்த வடிவமைப்பு அல்காரிதங்களுக்கான பொது-நோக்க மைய செயலாக்க அலகுகளை (CPUs) விட மேம்பட்டதாக இருக்கும், அதாவது:

கிரிப்டோகிராஃபிக் ஹாஷ்செயல்பாடுகள்
இயந்திர கற்றல்
மூலக்கூறு இயக்கவியல் உருவகப்படுத்துதல்கள்
இயற்பியல் இயந்திரங்கள்
வரிசைப்படுத்து வழிமுறைகள்

CUDA கட்டிடக்கலையின் பயன்கள் இப்போது மற்றும் எதிர்காலத்தில்

3D கிராபிக்ஸின் துரிதப்படுத்தப்பட்ட ரெண்டரிங்
வீடியோ கோப்பு வடிவங்களின் துரிதமான இடைமாற்றம்
விரைவுபடுத்தப்பட்ட குறியாக்கம், மறைகுறியாக்கம் மற்றும் சுருக்கம்
உயிர் தகவலியல், எ.கா., NGS DNA sequencing BarraCUDA
விநியோகிக்கப்பட்ட கணக்கீடுகள், புரதங்களின் பூர்வீக இணக்கத்தை முன்னறிவிப்பது போன்றது
மருத்துவ பகுப்பாய்வு உருவகப்படுத்துதல்கள், எடுத்துக்காட்டாக, CT மற்றும் MRI ஸ்கேன் படங்களின் அடிப்படையில் மெய்நிகர் உண்மை
இயற்பியல் உருவகப்படுத்துதல்கள், குறிப்பாக திரவ இயக்கவியலில்
மெஷின் லேர்னிங் பிரச்சனைகளில் நரம்பியல் நெட்வொர்க் பயிற்சி
முகம் கண்டறிதல்
விநியோகிக்கப்படும் கம்ப்யூட்டிங் திட்டங்கள், அதாவது [email protected] மற்றும் பிற திட்டங்கள் BOINC
மூலக்கூறு இயக்கவியல்
மைனிங் கிரிப்டோகரன்சிகள்
கட்டமைப்பு இயக்கம் (SfM) மென்பொருள்

டென்சர் கோர் என்றால் என்ன?

டென்சர் கோர்ஸ் எனப்படும் சிறப்பு கோர்கள் கலப்பு துல்லியமான பயிற்சியை அனுமதிக்கின்றன. இந்த ஸ்பெஷலைஸ்டு கோர்களின் ஆரம்ப தலைமுறை இதை ஒரு இணைந்த பெருக்கல்-சேர் அல்காரிதம் மூலம் செய்கிறது. இது 4 x 4 FP16 அல்லது FP32 மேட்ரிக்ஸில் இரண்டு 4 x 4 FP16 மெட்ரிக்ஸைப் பெருக்கி சேர்க்கிறது.

இறுதி முடிவு FP32 ஆகும், இது ஒரு சிறிய துல்லியமான இழப்புடன் மட்டுமே இருக்கும், கலப்பு துல்லியமான கம்ப்யூட்டிங் அவ்வாறு குறிப்பிடப்படுகிறதுஉள்ளீட்டு மெட்ரிக்குகள் குறைந்த துல்லியமான FP16 ஆக இருக்கலாம்.

மேலும் பார்க்கவும்: இன்டர்கூலர்கள் VS ரேடியேட்டர்கள்: அதிக திறன் வாய்ந்தது எது? - அனைத்து வேறுபாடுகள்

நடைமுறையில், இது மாதிரியின் இறுதி செயல்திறனில் சிறிய தாக்கத்துடன் கணக்கீடுகளை கணிசமாக வேகப்படுத்துகிறது. இந்தத் திறன் பிற்கால மைக்ரோஆர்கிடெக்சர்களால் இன்னும் குறைவான துல்லியமான கணினி எண் பிரதிநிதித்துவங்களுக்கு விரிவாக்கப்பட்டது.

V100 இல் தொடங்கும் வோல்டா மைக்ரோஆர்கிடெக்சருடன் முதல் தலைமுறை அறிமுகப்படுத்தப்பட்டது, ஒவ்வொரு தலைமுறைக்கும் புதிய GPU மைக்ரோஆர்கிடெக்சர்களுடன் கணக்கிடுவதற்கு அதிக கணினி எண் துல்லியமான வடிவங்கள் கிடைக்கப்பெற்றன.

மேலும் பார்க்கவும்: "முழு HD LED டிவி" VS. "அல்ட்ரா HD LED டிவி" (வேறுபாடு) - அனைத்து வேறுபாடுகள்

டென்சர் கோர்களின் திறன் மற்றும் செயல்பாடுகள் ஒவ்வொரு மைக்ரோஆர்கிடெக்சர் தலைமுறையிலும் எவ்வாறு மாறியது மற்றும் மேம்படுத்தப்பட்டது என்பதைப் பற்றி பின்வரும் பிரிவில் பேசுவோம்.

டைட்டன் வி மூலம் வரைகலை முறையில் ரெண்டர் செய்யப்பட்ட படம்

டென்சர் கோர்கள் எப்படி வேலை செய்கிறது?

முதல் தலைமுறை:

வோல்டா GPU மைக்ரோஆர்கிடெக்சர் முதல் தலைமுறை டென்சர் கோர்களுடன் சேர்க்கப்பட்டது. இந்த கோர்கள் கலப்பு துல்லியம் மற்றும் FP16 எண் வடிவத்துடன் பயிற்சி பெறுவதை சாத்தியமாக்கியது.

சில GPUகளுக்கான டெராஃப்ளோப் செயல்திறனில் இது 12x ஊக்கத்தை அளிக்கும். டாப்-டையர் V100 இன் 640 கோர்கள் முந்தைய தலைமுறையின் Pascal GPUகளை விட செயல்திறன் வேகத்தில் 5x அதிகரிப்பைக் கொடுக்கின்றன.

இரண்டாம் தலைமுறை:

Turing GPUகளின் அறிமுகத்துடன், டென்சர் கோர்களின் இரண்டாம் தலைமுறை அறிமுகப்படுத்தப்பட்டது. Int8, Int4 மற்றும் Int1 ஆகியவை ஆதரிக்கப்படும் டென்சர் கோர் துல்லியங்களின் பட்டியலில் சேர்க்கப்பட்டன, அவைமுன்பு FP16 க்கு மட்டுப்படுத்தப்பட்டது.

கலப்பு துல்லியமான பயிற்சி நடைமுறைகள் காரணமாக, பாஸ்கல் GPUகளுடன் ஒப்பிடும்போது GPU இன் செயல்திறன் செயல்திறன் 32 மடங்கு வரை அதிகரித்துள்ளது.

மூன்றாம் தலைமுறை:

ஆம்பியர் GPU இல் உள்ள கட்டமைப்பு FP64, TF32 மற்றும் bfloat16 துல்லியங்களுக்கான ஆதரவைச் சேர்ப்பதன் மூலம் வோல்டா மற்றும் டூரிங் மைக்ரோஆர்கிடெக்சர்களின் முந்தைய முன்னேற்றங்களில் விரிவடைகிறது.

ஆழ்ந்த கற்றல் பயிற்சி மற்றும் அனுமான செயல்பாடுகள் இந்த கூடுதல் துல்லியமான வடிவங்களால் மிகவும் துரிதப்படுத்தப்படுகின்றன. எடுத்துக்காட்டாக, TF32 வடிவமைப்பு FP32 போலவே செயல்படுகிறது, அதே நேரத்தில் எந்த குறியீட்டையும் மாற்றாமல் 20x வேகத்திற்கு உத்தரவாதம் அளிக்கிறது.

பின்னர், ஒரு சில வரிக் குறியீடுகளுடன், தானியங்கு கலப்பு துல்லியமான செயலாக்கம் பயிற்சியை கூடுதலாக 2 மடங்கு அதிகரிக்கும்.

மூன்றாம் தலைமுறை NVLink, அனல் பறக்கும் வேகமான மல்டி-ஜிபியு இடைவினைகள், மூன்றாம் தலைமுறை ரே ட்ரேசிங் கோர்கள் மற்றும் ஸ்பேர்ஸ் மேட்ரிக்ஸ் கணிதத்துடன் கூடிய நிபுணத்துவம் ஆகியவை ஆம்பியர் மைக்ரோஆர்கிடெக்சரின் கூடுதல் அம்சங்களாகும் .

நான்காவது தலைமுறை:

ஹாப்பர் மைக்ரோஆர்கிடெக்சர் அடிப்படையிலான நான்காவது தலைமுறை டென்சர் கோர்களின் எதிர்கால வெளியீடு திட்டமிடப்பட்டுள்ளது. அடுத்த H100 இல் உள்ள நான்காவது தலைமுறை டென்சர் கோர்கள்.

இது மார்ச் 2022 இல் வெளியிடப்படும் என எதிர்பார்க்கப்படுகிறது, FP8 துல்லியமான வடிவங்களைக் கையாளக்கூடியது மற்றும் NVIDIA இன் படி, பெரிய மொழி மாதிரிகளை “வியக்கத்தக்க 30X மூலம் துரிதப்படுத்தும். முந்தைய தலைமுறையை விட.”

ஆர்டிஎக்ஸ் கிராபிக்ஸ் கார்டுடென்சர் கோர்களைக் கொண்டிருப்பதால், மிக வேகமாக கிராபிக்ஸ் ரெண்டரிங் செய்யப் பயன்படுகிறது.

CUDA கோர்கள் மற்றும் டென்சர் கோர்களுக்கு இடையே உள்ள வேறுபாடு

டென்சர் கோர்கள் தற்போது Titan V மற்றும் Tesla V100க்கு மட்டுமே. இரண்டு GPU களிலும் உள்ள 5120 CUDA கோர்கள் ஒரு GPU கடிகாரத்திற்கு ஒரு துல்லியமான பெருக்கல்-குவிப்பு செயல்பாட்டின் அதிகபட்ச திறனைக் கொண்டுள்ளன (எடுத்துக்காட்டாக, fp32: x += y * z) (எ.கா. டெஸ்லா V100 PCIe அதிர்வெண் 1.38Gz).

ஒவ்வொரு டென்சர் மையமும் சிறிய மெட்ரிக்குகளுக்கு 4×4 சிறிய மெட்ரிக்குகளில் இயங்குகிறது. ஒரு GPU கடிகாரத்திற்கு, ஒவ்வொரு டென்சர் மையமும் ஒரு மேட்ரிக்ஸ் மல்டிப்ளை-அக்யூமுலேட் செயல்பாட்டை முடிக்க முடியும்.

இது இரண்டு 4×4 FP16 மெட்ரிக்ஸைப் பெருக்கி 4×4 FP32 மேட்ரிக்ஸைச் சேர்க்கிறது, இதன் விளைவாக திரட்டி (அதுவும் fp32 4×4 மேட்ரிக்ஸ்).

உள்ளீட்டு மெட்ரிக்குகள் fp16 ஆகவும், பெருக்கல் முடிவுகள் மற்றும் திரட்டி fp32 ஆகவும் இருப்பதால், அல்காரிதம் கலப்பு துல்லியம் என அறியப்படுகிறது.

சரியான சொல் "4×4 மேட்ரிக்ஸ் கோர்கள்" ஆக இருக்கலாம், ஆனால் என்விடியா மார்க்கெட்டிங் குழு "டென்சர் கோர்களை" பயன்படுத்த தேர்வு செய்தது.

டென்சர் கோர்களின் முழு விளக்கம் சுருக்கமாக

16> <23

GPU கார்டு	CUDA கோர்கள்	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 Super	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 மற்றும்896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB அல்லது 2 GB

CUDA கோர்களைக் கொண்ட GPUகள்

முடிவு

CUDA மற்றும் Tensor கோர்கள் தயாரிப்புகள், இவை இரண்டும் Nvidia என்ற நிறுவனத்தால் உருவாக்கப்பட்டது. CUDA என்பது Compute Unified Device Architecture என்பதன் சுருக்கம். இந்த CUDA கோர்கள் உங்கள் GPUகள், ஸ்மார்ட்போன்கள் மற்றும் உங்கள் கார்களிலும் உள்ளன.
என்விடியாவால் உருவாக்கப்பட்ட டென்சர் கோர்களும் GPU களில் பயன்படுத்தப்படுகின்றன. "டென்சர் கோர்கள்" எனப்படும் சிறப்பு கோர்கள் கலப்பு துல்லியமான பயிற்சியை அனுமதிக்கின்றன. முதல் தலைமுறை டென்சர் கோர்கள் கலப்பு துல்லியம் மற்றும் FP16 எண் வடிவத்துடன் பயிற்சியளிப்பதை சாத்தியமாக்கியது.
சில GPUகளுக்கான டெராஃப்ளோப் செயல்திறனில் இது 12x ஊக்கத்தை அளிக்கும். Int8, Int4 மற்றும் Int1 ஆகியவை ஆதரிக்கப்படும் டென்சர் கோர் துல்லியங்களின் பட்டியலில் சேர்க்கப்பட்டன.
கலவை காரணமாகதுல்லியமான பயிற்சி நடைமுறைகள், GPU இன் செயல்திறன் 32 மடங்கு வரை அதிகரிக்கப்பட்டது. ஹாப்பர் மைக்ரோஆர்கிடெக்சர் அடிப்படையிலான நான்காவது தலைமுறை டென்சர் கோர்ஸின் எதிர்கால வெளியீடு திட்டமிடப்பட்டுள்ளது.

#SNIGCONSULTANCY