Naon Bedana Antara CUDA Cores sareng Tensor Cores? (Dipedar) - Sadayana Béda

 Naon Bedana Antara CUDA Cores sareng Tensor Cores? (Dipedar) - Sadayana Béda

Mary Davis

Inti CUDA sareng Tensor mangrupikeun produk anu dikembangkeun ku perusahaan anu disebut Nvidia. Janten naon inti CUDA sareng inti Tensor? CUDA nangtung pikeun Compute Unified Device Architecture. Inti CUDA aya dina GPU anjeun, smartphone, sareng mobil anjeun, sakumaha anu diomongkeun ku pamekar Nvidia.

Inti CUDA mangrupikeun platform komputasi paralel sareng antarmuka program aplikasi (API) anu ngamungkinkeun para perangkat lunak ngagunakeun jinis unit pangolahan grafik (GPU) khusus pikeun ngolah tujuan umum.

Sedengkeun inti tensor anu ogé dikembangkeun ku Nvidia, ogé dipaké dina GPU. Tensor Cores ngaktifkeun komputasi campuran-precision, adaptasi itungan dinamis pikeun ngaronjatkeun throughput bari ngajaga akurasi.

Dina kecap basajan, cores ieu mangrupa bagian penting tina GPUs dina pc Anjeun pikeun ngalakukeun itungan tangtu. Inti CUDA dianggo pikeun ngalikeun dua angka sareng nambihanana kana nomer anu sanés.

Sedengkeun inti Tensor sarua tapi mibanda matriks 4×4. Itungan ieu dasarna ngajadikeun grafik langkung gancang pikeun anjeun.

Naon Dupi CUDA?

Compute Unified Device Architecture dina pondok CUDA nu dikembangkeun ku Nvidia, dirilis dina 23 Juni 2007, nyaéta platform komputasi paralel jeung antar muka program aplikasi (API).

Éta ngamungkinkeun para perangkat lunak ngagunakeun jinis unit pamrosesan grafis (GPU) khusus pikeun ngolah tujuan umum, metode anu katelah komputasi tujuan umumGPU (GPU).

CUDA mangrupikeun lapisan parangkat lunak anu nyayogikeun aksés langsung kana set instruksi virtual GPU sareng elemen komputasi paralel pikeun palaksanaan kernel komputasi. CUDA dikembangkeun pikeun dianggo sareng basa pamrograman anu béda-béda kalebet C, C ++, sareng Fortran.

Kamampuhan pikeun ngerjakeun basa pamrograman anu béda-béda ngagampangkeun spesialis dina program paralel ngagunakeun sumber daya GPU upami urang ngabédakeunana tina API sateuacana sapertos Direct3D atanapi OpenGL, anu peryogi anjeun gaduh anu langkung maju. dasar kaahlian dina programming grafis.

GPU sareng CUDA ogé ngadukung kerangka pamrograman, sapertos OpenMP, OpenACC, OpenCL, sareng ogé HIP anu tiasa nyusun kode sapertos kitu kana CUDA. Ngaran munggaran anu dianggo pikeun CUDA mangrupikeun akronim pikeun Compute Unified Device Architecture. Sanajan kitu, Nvidia engké turun akronim nu ilahar dipaké.

Kartu Grafis Nvidia GTX 1080 Ti anu kuat

Langkung seueur Ngeunaan CUDA

Salaku prosésor komputer khusus, unit pangolahan grafis (GPU) nyumponan kabutuhan nyata. -waktu, komputasi-intensif beban kerja grafik 3D.

Kira-kira taun 2012 GPU mekar sarta geus jadi sistem multi-inti anu paralel pisan sangkan ngolah data éféktif pikeun blok badag.

Waktu ngolah blok badag data dina paralel, desain ieu leuwih unggul batan unit processing sentral (CPU) tujuan umum pikeun algoritma, kayaning:

  • hash cryptographicfungsi
  • pembelajaran mesin
  • simulasi dinamika molekular
  • mesin fisika
  • algoritma sortir

Mangpaat Arsitéktur CUDA Ayeuna jeung di mangsa nu bakal datang

  • Rendering gancangan grafik 3D
  • Akselerasi interkonversi format file video
  • Enkripsi gancangan, dekripsi, jeung komprési
  • Bioinformatika, misalna, NGS DNA sequencing BarraCUDA
  • Itungan disebarkeun, kayaning ngaramal konformasi asli protéin
  • Simulasi analisis médis, contona, kanyataanana maya dumasar kana CT jeung gambar scan MRI
  • Simulasi fisik, khususna dina dinamika cairan
  • Pelatihan jaringan saraf dina masalah pembelajaran mesin
  • Pangenalan raray
  • Proyék komputasi anu disebarkeun, sapertos [email protected] sareng proyék-proyék séjén anu ngagunakeun BOINC
  • Dinamika molekular
  • Mining cryptocurrencies
  • Software Struktur tina gerak (SfM)

Naon Dupi Tensor Core?

Inti khusus anu disebut Tensor Cores ngamungkinkeun pikeun latihan presisi campuran. Generasi awal inti khusus ieu ngalakukeun ieu sareng algoritma multiply-add. Hal ieu ngamungkinkeun pikeun ngalikeun tur nambahkeun dua matriks 4 x 4 FP16 ka matriks 4 x 4 FP16 atanapi FP32.

Hasil pamungkas bakal FP32 kalayan ngan saeutik leungitna presisi, komputasi precision campuran ditunjuk sapertos kitu sanajanmatrices input bisa jadi low-precision FP16.

Dina prakna, ieu sacara signifikan nyepetkeun itungan kalawan saeutik pangaruh kana efektivitas ahir modél. kapasitas ieu geus dimekarkeun ku microarchitectures engké mun malah kirang tepat representasi angka komputer.

Generasi kahiji diwanohkeun ku Volta microarchitecture dimimitian dina V100, leuwih loba format precision angka komputer dijieun sadia pikeun itungan jeung microarchitectures GPU anyar kalawan unggal generasi lulus.

Urang bakal ngobrol ngeunaan kumaha kapasitas sareng fungsionalitas Tensor Cores parantos robih sareng ningkat sareng unggal generasi microarchitecture dina bagian anu di handap ieu.

Gambar anu dirender sacara grafis anu didamel ku Titan V

Kumaha Tensor Cores Gawé?

Generasi Kahiji:

Arsitéktur mikro Volta GPU diasupkeun kana Tensor Cores generasi kahiji. Inti ieu ngamungkinkeun pikeun ngalatih kalayan akurasi campuran sareng format angka FP16.

Ieu bisa boga nepi ka 12x dorongan dina throughput teraFLOP pikeun GPUs tangtu. 640 cores tina V100 tingkat luhur masihan up 5x kanaékan speed kinerja leuwih Pascal GPUs tina generasi saméméhna.

Tempo_ogé: Patugas Damai VS Patugas Pulisi: Bedana Maranéhna - Sadayana Béda

Generasi Kadua:

Kalayan ngenalkeun Turing GPUs, generasi kadua Tensor Cores diwanohkeun. Int8, Int4, jeung Int1 ditambahkeun kana daptar precisions Tensor Core nu dirojong, nusaméméhna dugi ka FP16.

Kusabab prosedur latihan precision dicampur, throughput kinerja GPU ngaronjat nepi ka 32 kali dibandingkeun jeung GPUs Pascal.

Generasi Katilu:

Arsitéktur dina GPU Ampere ngalegaan kana kamajuan saméméhna Volta sareng Turing microarchitectures ku nambihan dukungan pikeun precision FP64, TF32, sareng bfloat16.

Latihan diajar jero sareng kagiatan inferensi langkung gancangan ku format presisi tambahan ieu. Contona, format TF32 fungsina sarua jeung FP32 bari ogé ngajamin nepi ka 20x speedups tanpa ngarobah kode nanaon.

Tempo_ogé: Naon Bedana Antara X264 sareng H264? (Béda Dijelaskeun) - Sadayana Béda

Lajeng, kalawan ngan sababaraha baris kode, palaksanaan precision campuran otomatis bakal nyepetkeun latihan ku tambahan 2x.

NVLink generasi katilu pikeun ngaktifkeun interaksi multi-GPU anu gancang pisan, inti Ray Tracing generasi katilu, sareng spésialisasi sareng matematika matriks jarang mangrupikeun aspék tambahan tina mikroarsitektur Ampere .

Generasi Kaopat:

Rilis kahareup tina generasi kaopat Tensor Cores dumasar kana mikroarsitektur Hopper. Generasi kaopat Tensor Cores dina H100 salajengna.

Anu diperkirakeun dileupaskeun dina Maret 2022, bakal tiasa ngadamel format precision FP8 sareng, numutkeun NVIDIA, bakal ngagancangkeun modél basa anu ageung "ku 30X anu luar biasa. ti generasi saméméhna.”

Kartu grafik RTX nyaétadipaké pikeun rendering grafik kacida gancangna sabab ngandung cores tensor.

Bedana Antara Cores CUDA jeung Cores Tensor

Tensor cores ayeuna dugi ka Titan V jeung Tesla V100. 5120 CUDA cores on duanana GPUs boga kapasitas maksimum hiji precision tunggal multiply-akumulasi operasi (Contona, dina fp32: x += y * z) per jam GPU (misalna Tesla V100 PCIe frékuénsi nyaéta 1.38Gz).

Unggal inti tensor beroperasi dina 4×4 matriks leutik pikeun matriks leutik. Per hiji jam GPU, unggal inti tensor tiasa ngalengkepan hiji matrix multiply-accumulate operasi.

Ieu ngalikeun dua matriks 4×4 FP16 sareng nambihan matriks 4×4 FP32 anu nyababkeun akumulator (éta ogé matriks fp32 4×4).

Kusabab matriks inputna fp16 sedengkeun hasil multiplikasi jeung akumulatorna fp32, algoritme kasebut katelah precision campuran.

Istilah anu leres sigana ngan ukur "inti matriks 4 × 4," tapi tim pamasaran NVIDIA milih ngagunakeun "inti tensor."

Tensor cores katerangan lengkep sacara ringkes

Kartu GPU CUDA cores VRAM
GeForce GTX 1660 Ti 1536 6GB
GeForce GTX 1660 Super 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 Super 1408 4GB
GeForce GTX 1650 1024 jeung896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB) 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1GB atawa 2 GB

GPU nu ngandung inti CUDA

Kacindekan

  • Inti CUDA jeung Tensor mangrupa produk, duanana dikembangkeun ku pausahaan nu disebut Nvidia. CUDA nangtung pikeun Compute Unified Device Architecture. Inti CUDA ieu aya dina GPU anjeun, smartphone, sareng mobil anjeun.
  • Sedengkeun inti tensor, anu ogé dikembangkeun ku Nvidia, ogé dipaké dina GPU. Inti khusus anu disebut "Tensor cores" ngamungkinkeun pikeun latihan precision campuran. Generasi kahiji Tensor Cores ngamungkinkeun pikeun ngalatih kalayan akurasi campuran sareng format angka FP16.
  • Ieu tiasa gaduh dorongan 12x dina throughput teraFLOP pikeun GPU anu tangtu. Int8, Int4, jeung Int1 ditambahkeun kana daptar precisions Tensor Core nu dirojong.
  • Kusabab campurprosedur latihan precision, kinerja GPU urang ngaronjat nepi ka 32 kali. Kahareupna sékrési generasi kaopat Tensor Cores basis microarchitecture Hopper direncanakeun.

Artikel Lain

    Mary Davis

    Mary Davis mangrupikeun panulis, panyipta kontén, sareng panalungtik avid khusus dina analisis perbandingan dina sababaraha topik. Kalayan gelar jurnalistik sareng pangalaman langkung ti lima taun di lapangan, Mary gaduh gairah pikeun ngirimkeun inpormasi anu teu bias sareng lugas ka pamiarsa na. Kacintana pikeun nyerat dimimitian nalika anjeunna ngora sareng parantos janten kakuatan panggerak dina karirna anu suksés dina tulisan. Kamampuh Mary pikeun nalungtik sareng nampilkeun papanggihan dina format anu gampang dipikahartos sareng pikaresepeun parantos ngajantenkeun anjeunna ka pamiarsa di sakumna dunya. Lamun manéhna teu nulis, Mary mikaresep iinditan, maca, jeung méakkeun waktu jeung kulawarga jeung babaturan.