د CUDA کور او ټینسر کور ترمینځ څه توپیر دی؟ (وضاحت) - ټول توپیرونه

01-08-202301-08-2023 Mary Davis

فهرست

CUDA او Tensor cores هغه محصولات دي چې د Nvidia په نوم شرکت لخوا رامینځته شوي. نو د CUDA cores او Tensor cores څه دي؟ CUDA د کمپیوټ متحد وسیلې آرکیټیکچر لپاره ولاړ دی. د CUDA کورونه ستاسو په GPUs، سمارټ فونونو، او حتی ستاسو موټرو کې شتون لري، لکه څنګه چې د Nvidia پراختیا کونکي ورته وایي.

CUDA کورونه یو موازي کمپیوټري پلیټ فارم او د غوښتنلیک برنامې انٹرفیس (API) دی چې سافټویر ته وړتیا ورکوي ترڅو د عمومي هدف پروسس کولو لپاره د ځانګړي ډول ګرافیک پروسس کولو واحدونو (GPUs) څخه کار واخلي.

هم وګوره: حبیبي او حبیبي: په عربي کې د مینې ژبه - ټول توپیرونه

په داسې حال کې چې د ټینسر کورونه چې د Nvidia لخوا هم رامینځته شوي، په GPUs کې هم کارول کیږي. د ټینسر کورونه مخلوط دقیق کمپیوټري فعالوي، د دقیقیت ساتلو په وخت کې د ټرپوټ زیاتولو لپاره په متحرک ډول محاسبه کوي.

په ساده کلمو کې، دا کورونه ستاسو په کمپیوټر کې د GPUs یوه مهمه برخه ده ترڅو ځینې محاسبې ترسره کړي. د CUDA کورونه د دوه عددونو د ضرب کولو او په بل نمبر کې د اضافه کولو لپاره کارول کیږي.

په داسې حال کې چې د ټینسر کور یو شان دی مګر د 4 × 4 میټریکونو سره. دا محاسبې اساسا ستاسو لپاره ګرافیک ګړندی وړاندې کوي.

CUDA څه شی دی؟

کمپیوټ یونیفایډ وسیلې جوړښت په لنډه توګه CUDA د Nvidia لخوا رامینځته شوی، د جون په 23، 2007 کې خپور شوی، یو موازي کمپیوټري پلیټ فارم او د اپلیکیشن پروګرام کولو انٹرفیس (API) دی.

هغه سافټویر ته وړتیا ورکوي چې د عمومي هدف پروسس کولو لپاره د ځانګړي ډول ګرافیک پروسس کولو واحدونو (GPUs) کارولو لپاره ، یو میتود چې د عمومي هدف کمپیوټري په نوم پیژندل کیږيGPUs (GPU).

CUDA یو سافټویر پرت دی چې د GPU مجازی لارښوونې سیټ ته مستقیم لاسرسی چمتو کوي او د کمپیوټري کرنلونو اجرا کولو لپاره موازي کمپیوټري عناصرو ته. CUDA د مختلف برنامه کولو ژبو سره کار کولو لپاره رامینځته شوی و پشمول د C ، C ++ ، او فورټران.

د مختلف پروګرامینګ ژبو سره د کار کولو وړتیا د موازي پروګرامینګ متخصصینو لپاره د GPU سرچینو کارول اسانه کوي که چیرې موږ دا د پخوانیو APIs لکه Direct3D یا OpenGL څخه توپیر وکړو، کوم چې تاسو ته اړتیا لري چې ډیر پرمختللي وي. په ګرافیکي پروګرامونو کې د مهارت اساس.

GPU د CUDA سره د پروګرام کولو چوکاټونو ملاتړ کوي، لکه OpenMP، OpenACC، OpenCL، او همدارنګه HIP چې کولی شي دا ډول کوډ CUDA ته تالیف کړي. لومړی نوم چې د CUDA لپاره کارول شوی د کمپیوټر متحد وسیلې جوړښت لپاره لنډیز و. په هرصورت، Nvidia وروسته په عام ډول کارول شوي لنډیز پریښود.

یو پیاوړی Nvidia ګرافیک کارت GTX 1080 Ti

د CUDA په اړه نور

د ځانګړي کمپیوټر پروسیسر په توګه، د ګرافیک پروسس کولو واحد (GPU) د اصلي اړتیاو پوره کوي. - وخت، د 3D ګرافیک د کار بارونه محاسبه کول.

د 2012 په اړه GPUs وده وکړه او په خورا موازي ملټي کور سیسټمونو بدل شو چې د لوی بلاکونو لپاره مؤثره ډیټا پروسس کولو توان لري.

کله چې په موازي ډول د ډیټا لوی بلاکونه پروسس کوي، دا ډیزاین د الګوریتمونو لپاره د عمومي هدف مرکزي پروسس کولو واحدونو (CPUs) څخه غوره دی، لکه:

کریپټوګرافیک هشفنکشنونه
ماشین زده کړه
مالکولر ډینامیک سمولیشن
فزیک انجنونه
ترتیب الګوریتم

اوس د CUDA معمارۍ کارول او په راتلونکي کې

د 3D ګرافیک ګړندی وړاندې کول
د ویډیو فایل فارمیټونو ګړندۍ متقابل تبادله
چټک کوډ کول، ډیکریپشن، او کمپریشن
بایو انفارماتیک، د مثال په توګه، د NGS DNA ترتیب کول BarraCUDA
توزیع شوي محاسبې، لکه د پروټین اصلي جوړښت وړاندوینه
د طبي تحلیل سمولونه، د بیلګې په توګه، د CT او MRI سکین انځورونو پر بنسټ مجازی حقیقت
فزيکي سمولونه، په ځانګړې توګه د مايعاتو د متحرکاتو په برخه کې
د ماشين د زده کړې په ستونزو کې د عصبي شبکې روزنه
د مخ پیژندنه
توزیع شوي کمپیوټري پروژې، لکه [بریښنالیک خوندي] او نورې پروژې په کارولو سره BOINC
مالکولر متحرکات
د کان کیندنې کریپټو اسعارو
د حرکت څخه جوړښت (SfM) سافټویر

د ټینسر کور څه شی دی؟

د ټینسر کور په نوم ځانګړي کورونه د مخلوط دقیق روزنې لپاره اجازه ورکوي. د دې ځانګړي کورز لومړني نسل دا د فیوز شوي ضرب الګوریتم سره ترسره کوي. دا ممکنه کوي چې په 4 x 4 FP16 یا FP32 میټریکس کې دوه 4 x 4 FP16 میټریکونه ضرب او اضافه کړي.

وروستۍ پایله به FP32 وي چې یوازې د دقیقیت لږ زیان سره ، مخلوط دقیق کمپیوټري ډیزاین شوی حتی که څه همد ننوتلو میټریکونه ممکن ټیټ دقیق FP16 وي.

په عمل کې، دا د پام وړ محاسبه چټکوي چې د ماډل په وروستي تاثیر باندې لږ نفوذ لري. دا ظرفیت د وروسته مایکرو آرکیټیکچرونو لخوا حتی لږ دقیق کمپیوټر شمیر نمایندګیو ته پراخ شوی.

لومړی نسل د V100 په پیل کې د ولټا مایکرو آرکیټیکچر سره معرفي شو ، د هر تیریدونکي نسل سره د نوي GPU مایکرو آرکیټیکچرونو سره د کمپیوټري شمیرې ډیر دقیق فارمیټونه د محاسبې لپاره چمتو شوي.

موږ به په دې اړه وغږیږو چې څنګه د ټینسر کور ظرفیت او فعالیت په لاندې برخه کې د هر مایکرو آرکیټیکچر نسل سره بدل شوی او ښه شوی دی.

په ګرافیک ډول وړاندې شوی عکس د Titan V لخوا جوړ شوی

د ټینسر کور څنګه کار کوي؟

لومړی نسل:

د ولټا GPU مایکرو آرکیټیکچر د ټینسر کور لومړي نسل سره شامل شو. دې کورونه د مخلوط دقیقیت او د FP16 شمیرې فارمیټ سره روزنه ممکنه کړې.

دا ممکن د ځانګړو GPUs لپاره د teraFLOP له لارې 12x ته وده ورکړي. د لوړ پوړ V100 640 کورونه د تیر نسل د پاسکل GPUs په پرتله د فعالیت سرعت کې 5x زیاتوالی ورکوي.

هم وګوره: د 1080p او 1440p ترمنځ توپیر (هر څه ښکاره شوي) - ټول توپیرونه

دوهم نسل:

د تورینګ GPUs په معرفي کولو سره، د ټینسر کور دوهم نسل معرفي شو. Int8، Int4، او Int1 د ملاتړ شوي ټینسر کور دقیقیت لیست کې اضافه شوي، کوم چې وومخکې په FP16 پورې محدود و.

د مخلوط دقیق روزنې پروسیجرونو له امله، د GPU فعالیت انډول د پاسکال GPUs په پرتله 32 ځله زیات شوی.

دریم نسل:

په امپیر GPU کې جوړښت د FP64، TF32، او bfloat16 دقیقیت لپاره د ملاتړ په اضافه کولو سره د ولټا او تورینګ مایکرو آرکیټیکچر پخوانیو پرمختګونو ته پراختیا ورکوي.

د دې اضافي دقیق شکلونو په واسطه د ژورې زده کړې روزنه او د پیژندنې فعالیتونه خورا ګړندي کیږي. د مثال په توګه، د TF32 بڼه د FP32 سره ورته کار کوي پداسې حال کې چې د کوډ بدلولو پرته د 20x سرعت تضمین کوي.

بیا، د کوډ د یو څو لینونو سره، د اتوماتیک مخلوط دقیق تطبیق به د اضافي 2x لخوا روزنه ګړندۍ کړي.

د دریم نسل NVLink چې په ډیره چټکۍ سره د څو-GPU تعاملاتو د فعالولو لپاره، د دریم نسل رې ټریسینګ کورونه، او د سپیر میټریکس ریاضیاتو سره تخصص د امپری مایکرو آرکیټیکچر اضافي اړخونه دي .

څلورم نسل:

د هاپر مایکرو آرکیټیکچر پراساس د ټینسر کور څلورم نسل راتلونکی خوشې کول پلان شوي. په راتلونکي H100 کې د څلورم نسل ټینسر کورونه.

کوم چې تمه کیږي د مارچ په 2022 کې خپور شي، د FP8 دقیق شکلونو اداره کولو توان به ولري او د NVIDIA په وینا، د ژبې لوی ماډلونه به ګړندي کړي "د حیرانتیا وړ 30X لخوا د تیر نسل په پرتله.”

د RTX ګرافیک کارت دید ګرافیک وړاندې کولو لپاره خورا ګړندي کارول کیږي ځکه چې دا د ټینسر کورونه لري.

د CUDA کور او ټینسر کور ترمینځ توپیر

د ټینسر کور اوس مهال په Titan V او Tesla V100 پورې محدود دي. په دواړو GPUs کې د 5120 CUDA کورونه د یو واحد دقیق ضرب - جمع عملیاتو اعظمي ظرفیت لري (د مثال په توګه په fp32: x += y * z) په هر GPU ساعت کې (د مثال په توګه د Tesla V100 PCIe فریکونسۍ 1.38Gz دی).

هر ټینسر کور د وړو میټریکونو لپاره په 4×4 کوچنیو میټریکونو کار کوي. په یو GPU ساعت کې، هر ټینسر کور کولی شي یو میټریکس ضرب - جمع عملیات بشپړ کړي.

دا دوه 4×4 FP16 میټریکس ضربوي او 4×4 FP32 میټریکس اضافه کوي چې پایله یې جمع کونکی (دا هم fp32 4×4 میټریکس دی).

ځکه چې د ننوت میټریکونه fp16 دي پداسې حال کې چې د ضرب پایلې او جمع کونکي fp32 دي، الګوریتم د مخلوط دقیق په توګه پیژندل کیږي.

سمه اصطلاح به احتمال ولري یوازې "4 × 4 میټریکس کور" وي، مګر د NVIDIA بازار موندنې ټیم د "ټینسر کور" کارول غوره کړل.

د ټینسر کور بشپړ توضیحات په لنډه توګه

<23

GPU کارت	CUDA کور	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 سوپر	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 او896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)<22	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB یا 2 GB

GPUs چې د CUDA کورونه لري

پایله

CUDA او ټینسر کور محصولات دي ، دواړه د Nvidia په نوم د شرکت لخوا رامینځته شوي. CUDA د کمپیوټ متحد وسیلې آرکیټیکچر لپاره ولاړ دی. دا CUDA کورونه ستاسو په GPUs، سمارټ فونونو، او حتی ستاسو موټرو کې شتون لري.
پداسې حال کې چې د ټینسر کورونه، چې د Nvidia لخوا هم رامینځته شوي، په GPUs کې هم کارول کیږي. د "ټینسر کور" په نوم ځانګړي کورونه د مخلوط دقیق روزنې لپاره اجازه ورکوي. د ټینسر کور لومړی نسل دا ممکنه کړه چې د مخلوط دقیقیت او د FP16 شمیرې فارمیټ سره روزنه وکړي.
دا ممکن د ځینې GPUs لپاره د teraFLOP throughput کې تر 12x پورې وده وکړي. Int8، Int4، او Int1 د ملاتړ شوي ټینسر کور دقیقیت لیست کې اضافه شوي.
د مخلوط له املهد دقیق روزنې پروسیجرونه، د GPU فعالیت تر 32 ځله زیات شوی. د هاپر مایکرو آرکیټیکچر پراساس د ټینسر کور څلورم نسل راتلونکي خوشې کول پلان شوي.

#SNIGCONSULTANCY