Cûdahiya di navbera CUDA Cores û Tensor Cores de çi ye? (Rêvekirin) - Hemî Cûdahî

 Cûdahiya di navbera CUDA Cores û Tensor Cores de çi ye? (Rêvekirin) - Hemî Cûdahî

Mary Davis

CUDA û Tensor core hilber in ku ji hêla pargîdaniyek bi navê Nvidia ve hatî pêşve xistin. Ji ber vê yekê korên CUDA û kelên Tensor çi ne? CUDA ji bo Mîmariya Amûra Yekgirtî ya Compute radiweste. Corên CUDA di GPU, têlefonên we, û tewra gerîdeyên we de hene, wekî ku pêşdebirên Nvidia weha dibêjin.

Navikên CUDA platformek berhevokê ya paralel û navbeynkariya bernamesaziya serîlêdanê (API) ye ku nermalavê dihêle ku cûreyên taybetî yên yekîneyên pêvajoya grafîkê (GPU) ji bo pêvajoyek gelemperî bikar bîne.

Binêre_jî: Cûdahiya di navbera "Anata" de çi ye & amp; "Kimi"? - Hemî Cûdahî

Her çend ku korên tensor ên ku ji hêla Nvidia ve jî hatine pêşve xistin, di GPU de jî têne bikar anîn. Tensor Cores hesabkirina tevlihev-rast-aheng dike, hesaban bi dînamîk ve adapte dike da ku di heman demê de rastbûna xwe biparêze rêgez zêde bike.

Bi gotinên sade, ev navok beşek girîng a GPU-yên di komputera we de ne ku hin hesaban bikin. Hêlên CUDA ji bo pirkirina du hejmaran û lê zêdekirina wan li hejmarek din têne bikar anîn.

Lewra Tensor core heman e lê bi matricên 4×4. Van hesaban di bingeh de grafîkan ji we re zûtir peyda dikin.

CUDA çi ye?

Bi kurtasî Mîmariya Amûra Yekgirtî Bihejmêre CUDA ku ji hêla Nvidia ve hatî pêşve xistin, ku di 23ê Hezîrana 2007-an de hatî berdan, platformek berhevokê ya paralel û navbeynkariya bernamesaziya serîlêdanê (API) ye.

Ew nermalavê dihêle ku cûreyên taybetî yên yekîneyên pêvajoyek grafîkî (GPU) ji bo pêvajoyek gelemperî bikar bîne, rêbazek ku wekî hesabkirina armanca gelemperî tête zanîn.GPU (GPU).

CUDA qatek nermalavê ye ku rasterast gihîştina koma rêwerzên virtual ya GPU û hêmanên hesabker ên paralel ji bo pêkanîna kernelên hesabkirinê peyda dike. CUDA hate pêşve xistin ku bi zimanên bernamesaziyê yên cihêreng ên C, C++, û Fortran re bixebite.

Heke em wê ji API-yên berê yên wekî Direct3D an OpenGL-yê cuda bikin, şiyana ku bi zimanên bernamenûsê yên cihêreng re bixebite ji pisporên bernameya paralel re hêsantir dike ku karanîna çavkaniyên GPU-yê bikar bînin. bingeha jêhatîbûnê di bernameya grafîkî de.

GPU bi CUDA re jî çarçoveyên bernamekirinê piştgirî dike, wekî OpenMP, OpenACC, OpenCL, û her weha HIP-ê ku dikare kodek weha ji CUDA re berhev bike. Navê yekem ku ji bo CUDA hatî bikar anîn kurtenivîsek ji bo Mîmariya Amûra Yekgirtî ya Compute bû. Lêbelê, Nvidia paşê kurteya ku bi gelemperî tê bikar anîn derxist.

Karta grafîkî ya Nvidia-ya hêzdar GTX 1080 Ti

Zêdetir Di derbarê CUDA de

Wekî pêvajoyek kompîturê ya pispor, yekîneya pêvajoyek grafîkê (GPU) hewcedariyên rastîn pêk tîne. -dem, bargiraniyên grafîkên 3D-ê yên zexm bihejmêrin.

Nêzîkî 2012-an GPU-yên pêşkeftî û bûne pergalên pir-bingehîn ên pir paralel ên ku ji bo blokên mezin hilberandina daneya bi bandor dihêlin.

Dema ku blokên mezin ên daneyê bi paralelî têne hilberandin, ev sêwirandin ji yekeyên hilberandina navendî ya giştî (CPU) ji bo algorîtmayan, wek:

  • haşa krîptografî çêtir e.fonksiyonên
  • fêrbûna makîneyê
  • simulasyonên dînamîkên molekulî
  • motorên fîzîkê
  • algorîtmayên cûrbecûr

Bikaranîna Mîmariya CUDA Niha û di Pêşerojê de

  • Daxuyaniya bilez a grafikên 3D
  • Veguheztina bilez a formatên pelên vîdyoyê
  • Şîfrekirin, deşîfrekirin û berhevkirina bilez
  • Bioinformatics, Mînak, rêzgirtina DNA ya NGS BarraCUDA
  • Hesabên belavkirî, wek pêşbînkirina pêkhatina xwemalî ya proteînan
  • Simûlasyonên analîza bijîjkî, mînakî, rastiya virtual li ser bingeha dîmenên şopandina CT û MRI
  • Simûlasyonên laşî, bi taybetî di dînamîkên şilavê de
  • Di pirsgirêkên fêrbûna makîneyê de perwerdehiya tora nervê
  • Naskirina rû
  • Projeyên hesabkirinê yên belavkirî, wek [email parastî] û projeyên din ên ku bikar tînin BOINC
  • Dînamîkên molekulî
  • Kirpto pereyên kanan
  • Avaniya ji nermalava tevgerê (SfM)

Tensor Core Çi ye?

Balavên pispor ên bi navê Tensor Cores destûr didin perwerdehiya tevlihev-rast. Nifşa destpêkê ya van navikên pispor vê yekê bi algorîtmayek pir-zêdekirina hevgirtî dike. Ev dihêle ku meriv du matricên 4 x 4 FP16 li matrixek 4 x 4 FP16 an FP32 zêde bike û zêde bike.

Encama dawî dê bibe FP32 bi tenê kêmasiyek sivik a rastbûnê, lêbelê tevî ku hesabkirina rastbûna tevlihev wekî wusa tête destnîşan kirindibe ku matricên têketinê FP16 kêm-rast bin.

Di pratîkê de, ev yek bi bandorek hindik li ser bandoriya paşîn a modelê bi girîngî hesabên bilez dike. Ev kapasîteyê ji hêla mîkroarchitecturên paşîn ve hatî berfireh kirin ku hêj kêmtir numreya komputerê temsîl dike.

Nifşa yekem bi mîkroarchitektura Volta-yê ku ji V100-ê dest pê dike hate nasandin, bi her nifşek derbasbûyî re bêtir formatên rastîn ên hejmarên komputerê ji bo hesabkirinê peyda bûn.

Em ê biaxivin ka kapasîte û fonksiyona Tensor Cores çawa bi her nifşek mîkroarchitecturê re di beşa li jêr de guherî û çêtir bûye.

Wêneyek bi grafîkî hatî çêkirin ji hêla Titan V ve hatî çêkirin

Tensor Cores Çawa Kar dikin?

Nifşa Yekem:

Mîkroarchitektura GPU ya Volta bi nifşa yekem a Tensor Cores re tê de bû. Van navan îmkana perwerdekirina bi rastbûna tevlihev û formata jimareya FP16 çêkir.

Dibe ku ev ji bo hin GPU-yan heya 12x zêdebûnek li berbi teraFLOP hebe. 640 hebên V100-ya jorîn li ser GPU-yên Pascal ên nifşê berê 5x zêdebûnek leza performansê dide.

Nifşa Duyemîn:

Bi danasîna GPU-yên Turing re, nifşa duyemîn a Tensor Cores hate destnîşan kirin. Int8, Int4, û Int1 li navnîşa rasthatinên Tensor Core yên piştgirî hatin zêdekirin, ku bûn.berê bi FP16 ve sînorkirî ye.

Ji ber prosedurên perwerdehiya rastîn a tevlihev, berbi performansa GPU-yê li gorî GPU-yên Pascal heta 32 carî zêde bû.

Nifşa Sêyemîn:

Mîmariya di GPU-ya Ampere de li ser pêşkeftinên berê yên mîkroarchitekturên Volta û Turing berfireh dibe û piştgirî ji bo rasthatinên FP64, TF32, û bfloat16 zêde dike.

Perwerdehiya fêrbûna kûr û çalakiyên encamgirtinê ji hêla van formên rast ên zêde ve pir zêde têne bilez kirin. Mînakî, formata TF32 bi heman rengî FP32 tevdigere û di heman demê de bêyî guheztina kodek 20x bilez garantî dike.

Dûv re, bi tenê çend rêzikên kodê, pêkanîna rastbûna tevlihev a otomatîkî dê perwerdehiyê bi 2x zêde bileztir bike.

Binêre_jî: Cûdahiya di navbera Michael û Micheal de: Rastnivîsîna Rast a Wê Peyvê çi ye? (Bibînin) - Hemî Cûdahî

NVLink-a sêyem ku danûstendinên pir-GPU yên bi lez û bez çalak dike, core Ray Tracing-a nifşa sêyemîn, û pisporbûna bi matematîkên matrixê yên kêm, hêmanên din ên mîkroarchitektura Ampere ne. .

Nifşa Çaremîn:

Daberdana pêşerojê ya nifşa çaremîn a mîkroarchitectural Hopper-a Tensor Cores tê plan kirin. Nifşa çaremîn Tensor Cores di H100-a dahatû de.

ya ku tê çaverêkirin ku di Adara 2022-an de were berdan, dê bikaribe bi formatên rasteqîn ên FP8 re mijûl bibe û, li gorî NVIDIA, dê modelên zimanên mezin "bi 30X-ek ecêb bilezîne. li ser nifşê berê."

Kartek grafîkê ya RTX yeji bo danasîna grafîkan pir bilez tê bikar anîn ji ber ku ew navokên tensor dihewîne.

Cûdahiya Navbera CUDA Cores û Tensor Cores

Navkanên tensor niha bi Titan V û Tesla V100 ve têne sînorkirin. 5120 hebên CUDA yên li ser her du GPU-yê xwedan kapasîteya herî zêde ya yek operasyona pir-berhevkirina rasteqîn a yekane (mînakî, di fp32: x += y * z) her demjimêra GPU-yê heye (mînak: Tesla V100 PCIe frekansa 1,38Gz e).

Her core tensor ji bo matricên piçûk li ser matricên piçûk 4×4 dixebite. Li ser yek demjimêrek GPU, her bingehek tensor dikare operasyona pirjimar-komkirina matrixê temam bike.

Ew du matrixên 4×4 FP16 zêde dike û matrixa 4×4 FP32 ya ku di encamê de berhevkar e (ew jî matrixek fp32 4×4) zêde dike.

Ji ber ku matricên têketinê fp16 in dema ku encamên pirjimariyê û berhevkar fp32 ne, algorîtma wekî rastbûna tevlihev tê zanîn.

Têgeha rast îhtîmal e ku tenê "4 × 4 navokên matrixê" be, lê tîmê kirrûbirra NVIDIA hilbijart ku "navên tensor" bikar bîne.

Navikên tensor bi kurtî ravekirina tevahî

Qarta GPU Balavên CUDA VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 Super 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 Super 1408 4GB
GeForce GTX 1650 1024 û896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB) 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1GB an 2 GB

GPUyên ku navokên CUDA dihewîne

Encam

  • Bêlên CUDA û Tensor hilber in, her du jî ji hêla pargîdaniyek bi navê Nvidia ve hatine pêşve xistin. CUDA ji bo Mîmariya Amûra Yekgirtî ya Compute radiweste. Van core CUDA di GPU, têlefonên we û tewra gerîdeyên we de hene.
  • Her çend ku korên tensor, ku ji hêla Nvidia ve jî hatine pêşve xistin, di GPU de jî têne bikar anîn. Bûrên pispor ên bi navê "Balavên Tensor" destûr didin perwerdehiya tevlihev-rast. Nifşa yekem a Tensor Cores ev gengaz kir ku bi rastbûna tevlihev û forma jimareya FP16 perwerde bibe.
  • Dibe ku ev ji bo hin GPU-yan heya 12x zêdebûnek li berbi teraFLOP hebe. Int8, Int4, û Int1 li navnîşa rasthatinên Tensor Core yên piştgirî hatin zêdekirin.
  • Ji ber tevliheviyêprosedurên perwerdehiya rastîn, performansa GPU heya 32 carî zêde bû. Serbestberdanek pêşerojê ya nifşa çaremîn a Tensor Cores-a-bingeha mîkroarchitectural Hopper tê plansaz kirin.

Gotarên Din

    Mary Davis

    Mary Davis nivîskarek, afirînerê naverokê, û lêkolînerek dilşewat e ku di analîzkirina berhevdanê de li ser mijarên cihêreng pispor e. Digel destûrnameyek rojnamegeriyê û zêdetirî pênc sal ezmûna di qadê de, Meryem dil heye ku agahdariya bêalî û rasterast ji xwendevanên xwe re ragihîne. Hezkirina wê ya ji bo nivîsandinê dema ku ew ciwan bû dest pê kir û bûye hêzek ajotinê li pişt kariyera wê ya serkeftî di nivîsandinê de. Qabiliyeta Meryem a lêkolîn û pêşkêşkirina dîtinan bi rengek hêsan-fêmkirî û balkêş ew ji xwendevanên li çaraliyê cîhanê re xweş kiriye. Gava ku ew nenivîsîne, Meryem ji rêwîtiyê, xwendinê, û wextê xwe bi malbat û hevalên xwe re derbas dike.