د CUDA کور او ټینسر کور ترمینځ څه توپیر دی؟ (وضاحت) - ټول توپیرونه
فهرست
CUDA او Tensor cores هغه محصولات دي چې د Nvidia په نوم شرکت لخوا رامینځته شوي. نو د CUDA cores او Tensor cores څه دي؟ CUDA د کمپیوټ متحد وسیلې آرکیټیکچر لپاره ولاړ دی. د CUDA کورونه ستاسو په GPUs، سمارټ فونونو، او حتی ستاسو موټرو کې شتون لري، لکه څنګه چې د Nvidia پراختیا کونکي ورته وایي.
CUDA کورونه یو موازي کمپیوټري پلیټ فارم او د غوښتنلیک برنامې انٹرفیس (API) دی چې سافټویر ته وړتیا ورکوي ترڅو د عمومي هدف پروسس کولو لپاره د ځانګړي ډول ګرافیک پروسس کولو واحدونو (GPUs) څخه کار واخلي.
هم وګوره: حبیبي او حبیبي: په عربي کې د مینې ژبه - ټول توپیرونهپه داسې حال کې چې د ټینسر کورونه چې د Nvidia لخوا هم رامینځته شوي، په GPUs کې هم کارول کیږي. د ټینسر کورونه مخلوط دقیق کمپیوټري فعالوي، د دقیقیت ساتلو په وخت کې د ټرپوټ زیاتولو لپاره په متحرک ډول محاسبه کوي.
په ساده کلمو کې، دا کورونه ستاسو په کمپیوټر کې د GPUs یوه مهمه برخه ده ترڅو ځینې محاسبې ترسره کړي. د CUDA کورونه د دوه عددونو د ضرب کولو او په بل نمبر کې د اضافه کولو لپاره کارول کیږي.
په داسې حال کې چې د ټینسر کور یو شان دی مګر د 4 × 4 میټریکونو سره. دا محاسبې اساسا ستاسو لپاره ګرافیک ګړندی وړاندې کوي.
CUDA څه شی دی؟
کمپیوټ یونیفایډ وسیلې جوړښت په لنډه توګه CUDA د Nvidia لخوا رامینځته شوی، د جون په 23، 2007 کې خپور شوی، یو موازي کمپیوټري پلیټ فارم او د اپلیکیشن پروګرام کولو انٹرفیس (API) دی.
هغه سافټویر ته وړتیا ورکوي چې د عمومي هدف پروسس کولو لپاره د ځانګړي ډول ګرافیک پروسس کولو واحدونو (GPUs) کارولو لپاره ، یو میتود چې د عمومي هدف کمپیوټري په نوم پیژندل کیږيGPUs (GPU).
CUDA یو سافټویر پرت دی چې د GPU مجازی لارښوونې سیټ ته مستقیم لاسرسی چمتو کوي او د کمپیوټري کرنلونو اجرا کولو لپاره موازي کمپیوټري عناصرو ته. CUDA د مختلف برنامه کولو ژبو سره کار کولو لپاره رامینځته شوی و پشمول د C ، C ++ ، او فورټران.
د مختلف پروګرامینګ ژبو سره د کار کولو وړتیا د موازي پروګرامینګ متخصصینو لپاره د GPU سرچینو کارول اسانه کوي که چیرې موږ دا د پخوانیو APIs لکه Direct3D یا OpenGL څخه توپیر وکړو، کوم چې تاسو ته اړتیا لري چې ډیر پرمختللي وي. په ګرافیکي پروګرامونو کې د مهارت اساس.
GPU د CUDA سره د پروګرام کولو چوکاټونو ملاتړ کوي، لکه OpenMP، OpenACC، OpenCL، او همدارنګه HIP چې کولی شي دا ډول کوډ CUDA ته تالیف کړي. لومړی نوم چې د CUDA لپاره کارول شوی د کمپیوټر متحد وسیلې جوړښت لپاره لنډیز و. په هرصورت، Nvidia وروسته په عام ډول کارول شوي لنډیز پریښود.
یو پیاوړی Nvidia ګرافیک کارت GTX 1080 Ti
د CUDA په اړه نور
د ځانګړي کمپیوټر پروسیسر په توګه، د ګرافیک پروسس کولو واحد (GPU) د اصلي اړتیاو پوره کوي. - وخت، د 3D ګرافیک د کار بارونه محاسبه کول.
د 2012 په اړه GPUs وده وکړه او په خورا موازي ملټي کور سیسټمونو بدل شو چې د لوی بلاکونو لپاره مؤثره ډیټا پروسس کولو توان لري.
کله چې په موازي ډول د ډیټا لوی بلاکونه پروسس کوي، دا ډیزاین د الګوریتمونو لپاره د عمومي هدف مرکزي پروسس کولو واحدونو (CPUs) څخه غوره دی، لکه:
- کریپټوګرافیک هشفنکشنونه
- ماشین زده کړه
- مالکولر ډینامیک سمولیشن
- فزیک انجنونه
- ترتیب الګوریتم
اوس د CUDA معمارۍ کارول او په راتلونکي کې
- د 3D ګرافیک ګړندی وړاندې کول
- د ویډیو فایل فارمیټونو ګړندۍ متقابل تبادله
- چټک کوډ کول، ډیکریپشن، او کمپریشن
- بایو انفارماتیک، د مثال په توګه، د NGS DNA ترتیب کول BarraCUDA
- توزیع شوي محاسبې، لکه د پروټین اصلي جوړښت وړاندوینه
- د طبي تحلیل سمولونه، د بیلګې په توګه، د CT او MRI سکین انځورونو پر بنسټ مجازی حقیقت
- فزيکي سمولونه، په ځانګړې توګه د مايعاتو د متحرکاتو په برخه کې
- د ماشين د زده کړې په ستونزو کې د عصبي شبکې روزنه
- د مخ پیژندنه
- توزیع شوي کمپیوټري پروژې، لکه [بریښنالیک خوندي] او نورې پروژې په کارولو سره BOINC
- مالکولر متحرکات
- د کان کیندنې کریپټو اسعارو
- د حرکت څخه جوړښت (SfM) سافټویر
د ټینسر کور څه شی دی؟
د ټینسر کور په نوم ځانګړي کورونه د مخلوط دقیق روزنې لپاره اجازه ورکوي. د دې ځانګړي کورز لومړني نسل دا د فیوز شوي ضرب الګوریتم سره ترسره کوي. دا ممکنه کوي چې په 4 x 4 FP16 یا FP32 میټریکس کې دوه 4 x 4 FP16 میټریکونه ضرب او اضافه کړي.
وروستۍ پایله به FP32 وي چې یوازې د دقیقیت لږ زیان سره ، مخلوط دقیق کمپیوټري ډیزاین شوی حتی که څه همد ننوتلو میټریکونه ممکن ټیټ دقیق FP16 وي.
په عمل کې، دا د پام وړ محاسبه چټکوي چې د ماډل په وروستي تاثیر باندې لږ نفوذ لري. دا ظرفیت د وروسته مایکرو آرکیټیکچرونو لخوا حتی لږ دقیق کمپیوټر شمیر نمایندګیو ته پراخ شوی.
لومړی نسل د V100 په پیل کې د ولټا مایکرو آرکیټیکچر سره معرفي شو ، د هر تیریدونکي نسل سره د نوي GPU مایکرو آرکیټیکچرونو سره د کمپیوټري شمیرې ډیر دقیق فارمیټونه د محاسبې لپاره چمتو شوي.
موږ به په دې اړه وغږیږو چې څنګه د ټینسر کور ظرفیت او فعالیت په لاندې برخه کې د هر مایکرو آرکیټیکچر نسل سره بدل شوی او ښه شوی دی.
په ګرافیک ډول وړاندې شوی عکس د Titan V لخوا جوړ شوی
د ټینسر کور څنګه کار کوي؟
لومړی نسل:
د ولټا GPU مایکرو آرکیټیکچر د ټینسر کور لومړي نسل سره شامل شو. دې کورونه د مخلوط دقیقیت او د FP16 شمیرې فارمیټ سره روزنه ممکنه کړې.
دا ممکن د ځانګړو GPUs لپاره د teraFLOP له لارې 12x ته وده ورکړي. د لوړ پوړ V100 640 کورونه د تیر نسل د پاسکل GPUs په پرتله د فعالیت سرعت کې 5x زیاتوالی ورکوي.
هم وګوره: د 1080p او 1440p ترمنځ توپیر (هر څه ښکاره شوي) - ټول توپیرونهدوهم نسل:
د تورینګ GPUs په معرفي کولو سره، د ټینسر کور دوهم نسل معرفي شو. Int8، Int4، او Int1 د ملاتړ شوي ټینسر کور دقیقیت لیست کې اضافه شوي، کوم چې وومخکې په FP16 پورې محدود و.
د مخلوط دقیق روزنې پروسیجرونو له امله، د GPU فعالیت انډول د پاسکال GPUs په پرتله 32 ځله زیات شوی.
دریم نسل:
په امپیر GPU کې جوړښت د FP64، TF32، او bfloat16 دقیقیت لپاره د ملاتړ په اضافه کولو سره د ولټا او تورینګ مایکرو آرکیټیکچر پخوانیو پرمختګونو ته پراختیا ورکوي.
د دې اضافي دقیق شکلونو په واسطه د ژورې زده کړې روزنه او د پیژندنې فعالیتونه خورا ګړندي کیږي. د مثال په توګه، د TF32 بڼه د FP32 سره ورته کار کوي پداسې حال کې چې د کوډ بدلولو پرته د 20x سرعت تضمین کوي.
بیا، د کوډ د یو څو لینونو سره، د اتوماتیک مخلوط دقیق تطبیق به د اضافي 2x لخوا روزنه ګړندۍ کړي.
د دریم نسل NVLink چې په ډیره چټکۍ سره د څو-GPU تعاملاتو د فعالولو لپاره، د دریم نسل رې ټریسینګ کورونه، او د سپیر میټریکس ریاضیاتو سره تخصص د امپری مایکرو آرکیټیکچر اضافي اړخونه دي .
څلورم نسل:
د هاپر مایکرو آرکیټیکچر پراساس د ټینسر کور څلورم نسل راتلونکی خوشې کول پلان شوي. په راتلونکي H100 کې د څلورم نسل ټینسر کورونه.
کوم چې تمه کیږي د مارچ په 2022 کې خپور شي، د FP8 دقیق شکلونو اداره کولو توان به ولري او د NVIDIA په وینا، د ژبې لوی ماډلونه به ګړندي کړي "د حیرانتیا وړ 30X لخوا د تیر نسل په پرتله.”
د RTX ګرافیک کارت دید ګرافیک وړاندې کولو لپاره خورا ګړندي کارول کیږي ځکه چې دا د ټینسر کورونه لري.
د CUDA کور او ټینسر کور ترمینځ توپیر
د ټینسر کور اوس مهال په Titan V او Tesla V100 پورې محدود دي. په دواړو GPUs کې د 5120 CUDA کورونه د یو واحد دقیق ضرب - جمع عملیاتو اعظمي ظرفیت لري (د مثال په توګه په fp32: x += y * z) په هر GPU ساعت کې (د مثال په توګه د Tesla V100 PCIe فریکونسۍ 1.38Gz دی).
هر ټینسر کور د وړو میټریکونو لپاره په 4×4 کوچنیو میټریکونو کار کوي. په یو GPU ساعت کې، هر ټینسر کور کولی شي یو میټریکس ضرب - جمع عملیات بشپړ کړي.
دا دوه 4×4 FP16 میټریکس ضربوي او 4×4 FP32 میټریکس اضافه کوي چې پایله یې جمع کونکی (دا هم fp32 4×4 میټریکس دی).
ځکه چې د ننوت میټریکونه fp16 دي پداسې حال کې چې د ضرب پایلې او جمع کونکي fp32 دي، الګوریتم د مخلوط دقیق په توګه پیژندل کیږي.
سمه اصطلاح به احتمال ولري یوازې "4 × 4 میټریکس کور" وي، مګر د NVIDIA بازار موندنې ټیم د "ټینسر کور" کارول غوره کړل.
د ټینسر کور بشپړ توضیحات په لنډه توګه
GPU کارت | CUDA کور | VRAM |
---|---|---|
GeForce GTX 1660 Ti | 1536 | 6GB |
GeForce GTX 1660 سوپر | 1408 | 6GB |
GeForce GTX 1660 | 1408 | 6GB |
GeForce GTX 1650 Super | 1408 | 4GB |
GeForce GTX 1650 | 1024 او896 | 4GB |
GeForce GTX 1060 3GB | 1280 | 4GB |
GeForce GTX 1650 | 1280 | 3GB |
GeForce GTX 1060 6GB | 768 | 6GB |
GeForce GTX 1050 Ti (3GB) | 768 | 4GB |
GeForce GTX 1050 (2GB)<22 | 640 | 3GB |
GeForce GTX 960 | 1024 | 2GB |
GeForce GTX 950 | 786 | 2GB |
GeForce GTX 780 Ti | 2880 | 2GB |
GeForce GTX 780 | 2304 | 3GB |
GeForce GTX 750 Ti | 640 | 2 GB |
GeForce GTX 750 | 512 | 1GB یا 2 GB |
GPUs چې د CUDA کورونه لري
پایله
- CUDA او ټینسر کور محصولات دي ، دواړه د Nvidia په نوم د شرکت لخوا رامینځته شوي. CUDA د کمپیوټ متحد وسیلې آرکیټیکچر لپاره ولاړ دی. دا CUDA کورونه ستاسو په GPUs، سمارټ فونونو، او حتی ستاسو موټرو کې شتون لري.
- پداسې حال کې چې د ټینسر کورونه، چې د Nvidia لخوا هم رامینځته شوي، په GPUs کې هم کارول کیږي. د "ټینسر کور" په نوم ځانګړي کورونه د مخلوط دقیق روزنې لپاره اجازه ورکوي. د ټینسر کور لومړی نسل دا ممکنه کړه چې د مخلوط دقیقیت او د FP16 شمیرې فارمیټ سره روزنه وکړي.
- دا ممکن د ځینې GPUs لپاره د teraFLOP throughput کې تر 12x پورې وده وکړي. Int8، Int4، او Int1 د ملاتړ شوي ټینسر کور دقیقیت لیست کې اضافه شوي.
- د مخلوط له املهد دقیق روزنې پروسیجرونه، د GPU فعالیت تر 32 ځله زیات شوی. د هاپر مایکرو آرکیټیکچر پراساس د ټینسر کور څلورم نسل راتلونکي خوشې کول پلان شوي.