Apa Perbedaan Antara Core CUDA dan Core Tensor? (Dijelaskan) - Semua Perbedaannya

01-08-202301-08-2023 Mary Davis

Daftar Isi

Inti CUDA dan Tensor adalah produk yang dikembangkan oleh perusahaan bernama Nvidia. Jadi, apa itu inti CUDA dan inti Tensor? CUDA adalah singkatan dari Compute Unified Device Architecture. Inti CUDA ada di GPU, ponsel pintar, dan bahkan mobil Anda, karena pengembang Nvidia mengatakan demikian.

CUDA core adalah platform komputasi paralel dan antarmuka pemrograman aplikasi (API) yang memungkinkan perangkat lunak menggunakan jenis unit pemrosesan grafis (GPU) tertentu untuk pemrosesan tujuan umum.

Sedangkan tensor core yang juga dikembangkan oleh Nvidia, juga digunakan pada GPU. Tensor Core memungkinkan komputasi presisi campuran, mengadaptasi perhitungan secara dinamis untuk meningkatkan throughput sekaligus mempertahankan akurasi.

Dengan kata sederhana, core ini adalah bagian penting dari GPU di komputer Anda untuk melakukan perhitungan tertentu. Core CUDA digunakan untuk mengalikan dua angka dan menambahkannya ke angka lain.

Sedangkan Tensor core adalah sama tetapi dengan matriks 4×4. Perhitungan ini pada dasarnya merender grafis lebih cepat untuk Anda.

Apa itu CUDA?

Compute Unified Device Architecture singkatnya CUDA yang dikembangkan oleh Nvidia, dirilis pada tanggal 23 Juni 2007, merupakan platform komputasi paralel dan antarmuka pemrograman aplikasi (API).

Hal ini memungkinkan perangkat lunak untuk menggunakan jenis unit pemrosesan grafis (GPU) tertentu untuk pemrosesan tujuan umum, sebuah metode yang dikenal sebagai komputasi tujuan umum pada GPU (GPU).

CUDA adalah lapisan perangkat lunak yang menyediakan akses langsung ke set instruksi virtual GPU dan elemen komputasi paralel untuk eksekusi kernel komputasi. CUDA dikembangkan untuk bekerja dengan bahasa pemrograman yang berbeda, termasuk C, C++, dan Fortran.

Kemampuan untuk bekerja dengan bahasa pemrograman yang berbeda membuat spesialis dalam pemrograman paralel lebih mudah menggunakan sumber daya GPU jika kita membedakannya dari API sebelumnya seperti Direct3D atau OpenGL, yang mengharuskan Anda untuk memiliki basis keterampilan yang lebih maju dalam pemrograman grafis.

GPU dengan CUDA juga mendukung kerangka kerja pemrograman, seperti OpenMP, OpenACC, OpenCL, dan juga HIP yang dapat meng-compile kode tersebut ke CUDA. Nama pertama yang digunakan untuk CUDA adalah singkatan dari Compute Unified Device Architecture. Namun, Nvidia kemudian membatalkan singkatan yang umum digunakan tersebut.

Kartu Grafis Nvidia GTX 1080 Ti yang bertenaga

Lebih lanjut tentang CUDA

Sebagai prosesor komputer khusus, unit pemrosesan grafis (GPU) memenuhi kebutuhan beban kerja grafis 3D yang real-time dan intensif secara komputasi.

Sekitar tahun 2012, GPU berevolusi dan telah menjadi sistem multi-core yang sangat paralel sehingga memungkinkan pemrosesan data yang efektif untuk blok besar.

Lihat juga: Perbedaan Garam Biasa dan Garam Beryodium: Apakah Ada Perbedaan Nutrisi yang Signifikan? (Penjelasan) - Semua Perbedaannya

Ketika memproses blok data yang sangat besar secara paralel, desain ini lebih unggul daripada unit pemrosesan pusat (CPU) tujuan umum untuk algoritme, seperti:

fungsi hash kriptografi
pembelajaran mesin
simulasi dinamika molekuler
mesin fisika
mengurutkan algoritma

Penggunaan Arsitektur CUDA Sekarang dan di Masa Depan

Rendering grafis 3D yang dipercepat
Interkonversi format file video yang dipercepat
Enkripsi, dekripsi, dan kompresi yang dipercepat
Bioinformatika, misalnya, pengurutan DNA NGS BarraCUDA
Perhitungan terdistribusi, seperti memprediksi konformasi asli protein
Simulasi analisis medis, misalnya, realitas virtual berdasarkan gambar pemindaian CT dan MRI
Simulasi fisik, khususnya dalam dinamika fluida
Pelatihan jaringan saraf dalam masalah pembelajaran mesin
Pengenalan wajah
Proyek komputasi terdistribusi, seperti [email protected] dan proyek lain yang menggunakan BOINC
Dinamika molekuler
Menambang mata uang kripto
Perangkat lunak Structure from Motion (SfM)

Apa yang Dimaksud dengan Inti Tensor?

Core khusus yang disebut Tensor Cores memungkinkan pelatihan dengan presisi campuran. Generasi awal core khusus ini melakukan hal ini dengan algoritme penggandaan-tambahan yang menyatu. Hal ini memungkinkan untuk mengalikan dan menambahkan dua matriks FP16 4 x 4 ke matriks FP16 atau FP32 4 x 4.

Hasil akhirnya adalah FP32 dengan hanya sedikit kehilangan presisi, komputasi presisi campuran ditetapkan seperti itu meskipun matriks input mungkin FP16 presisi rendah.

Dalam praktiknya, hal ini secara signifikan mempercepat penghitungan dengan sedikit pengaruh pada keefektifan akhir model. Kapasitas ini telah diperluas oleh mikroarsitektur yang lebih baru hingga representasi angka komputer yang kurang tepat.

Generasi pertama diperkenalkan dengan mikroarsitektur Volta mulai dari V100, lebih banyak format presisi nomor komputer yang tersedia untuk komputasi dengan mikroarsitektur GPU baru dengan setiap generasi.

Kami akan membahas tentang bagaimana kapasitas dan fungsionalitas Tensor Cores telah berubah dan ditingkatkan dengan setiap generasi mikroarsitektur pada bagian selanjutnya.

Gambar yang dirender secara grafis yang dibuat oleh Titan V

Bagaimana Cara Kerja Tensor Core?

Generasi Pertama:

Mikroarsitektur GPU Volta disertakan dengan generasi pertama Tensor Cores. Core ini memungkinkan untuk melatih dengan presisi campuran dan format nomor FP16.

Hal ini dapat meningkatkan throughput teraFLOP hingga 12x lipat untuk GPU tertentu. 640 core pada V100 kelas atas memberikan peningkatan kecepatan performa hingga 5x lipat dibandingkan GPU Pascal generasi sebelumnya.

Generasi Kedua:

Dengan diperkenalkannya GPU Turing, generasi kedua Tensor Core diperkenalkan. Int8, Int4, dan Int1 ditambahkan ke dalam daftar presisi Tensor Core yang didukung, yang sebelumnya terbatas pada FP16.

Karena prosedur pelatihan presisi campuran, throughput kinerja GPU meningkat hingga 32 kali lipat dibandingkan dengan GPU Pascal.

Generasi Ketiga:

Arsitektur dalam GPU Ampere mengembangkan kemajuan mikroarsitektur Volta dan Turing sebelumnya dengan menambahkan dukungan untuk presisi FP64, TF32, dan bfloat16.

Aktivitas pelatihan dan inferensi deep learning lebih dipercepat dengan format presisi ekstra ini. Misalnya, format TF32 berfungsi mirip dengan FP32 sekaligus menjamin kecepatan hingga 20x lipat tanpa mengubah kode apa pun.

Kemudian, hanya dengan beberapa baris kode, implementasi presisi campuran otomatis akan mempercepat pelatihan dengan tambahan 2x lipat.

NVLink generasi ketiga untuk memungkinkan interaksi multi-GPU yang sangat cepat, core Ray Tracing generasi ketiga, dan spesialisasi dengan matematika matriks yang jarang adalah aspek tambahan dari mikroarsitektur Ampere .

Generasi Keempat:

Direncanakan akan ada rilis generasi keempat Tensor Cores berbasis mikroarsitektur Hopper di masa mendatang. Tensor Cores generasi keempat di H100 berikutnya.

yang diperkirakan akan dirilis pada Maret 2022, akan mampu menangani format presisi FP8 dan, menurut NVIDIA, akan mempercepat model bahasa yang sangat besar "hingga 30X lipat dari generasi sebelumnya."

Kartu grafis RTX digunakan untuk merender grafis dengan sangat cepat karena mengandung inti tensor.

Perbedaan Antara Core CUDA dan Core Tensor

Inti tensor saat ini terbatas pada Titan V dan Tesla V100. Inti CUDA 5120 pada kedua GPU tersebut memiliki kapasitas maksimum satu operasi perkalian-akumulasi presisi tunggal (misalnya, dalam fp32: x += y * z) per clock GPU (misalnya, frekuensi PCIe Tesla V100 adalah 1,38Gz).

Setiap inti tensor beroperasi pada matriks kecil berukuran 4×4 untuk matriks kecil. Per satu clock GPU, setiap inti tensor dapat menyelesaikan satu operasi perkalian-akumulasi matriks.

Ini mengalikan dua matriks FP16 4×4 dan menambahkan matriks FP32 4×4 yang menghasilkan akumulator (yang juga merupakan matriks FP32 4×4).

Karena matriks input adalah fp16 sedangkan hasil perkalian dan akumulator adalah fp32, algoritme ini dikenal sebagai presisi campuran.

Istilah yang tepat mungkin hanya "core matriks 4×4", tetapi tim pemasaran NVIDIA memilih untuk menggunakan "core tensor".

Penjelasan lengkap tentang inti tensor secara ringkas

Lihat juga: Apa Perbedaan Praktis Antara Rambu Berhenti dan Rambu Berhenti Semua Arah? (Dijelaskan) - Semua Perbedaan

Kartu GPU	Inti CUDA	VRAM
GeForce GTX 1660 Ti	1536	6GB
GeForce GTX 1660 Super	1408	6GB
GeForce GTX 1660	1408	6GB
GeForce GTX 1650 Super	1408	4GB
GeForce GTX 1650	1024 dan 896	4GB
GeForce GTX 1060 3GB	1280	4GB
GeForce GTX 1650	1280	3GB
GeForce GTX 1060 6GB	768	6GB
GeForce GTX 1050 Ti (3GB)	768	4GB
GeForce GTX 1050 (2GB)	640	3GB
GeForce GTX 960	1024	2GB
GeForce GTX 950	786	2GB
GeForce GTX 780 Ti	2880	2GB
GeForce GTX 780	2304	3GB
GeForce GTX 750 Ti	640	2 GB
GeForce GTX 750	512	1GB atau 2 GB

GPU yang mengandung inti CUDA

Kesimpulan

Core CUDA dan Tensor adalah produk yang dikembangkan oleh perusahaan bernama Nvidia. CUDA adalah singkatan dari Compute Unified Device Architecture. Core CUDA ini ada di GPU, smartphone, dan bahkan mobil Anda.
Sedangkan core tensor, yang juga dikembangkan oleh Nvidia, juga digunakan pada GPU. Core khusus yang disebut "Core Tensor" memungkinkan pelatihan dengan presisi campuran. Generasi pertama Core Tensor memungkinkan untuk melatih dengan presisi campuran dan format nomor FP16.
Hal ini dapat meningkatkan throughput teraFLOP hingga 12x lipat untuk GPU tertentu. Int8, Int4, dan Int1 telah ditambahkan ke dalam daftar presisi Tensor Core yang didukung.
Berkat prosedur pelatihan presisi campuran, performa GPU meningkat hingga 32 kali lipat. Direncanakan akan ada rilis generasi keempat Tensor Core generasi keempat berbasis mikroarsitektur Hopper di masa mendatang.

#SNIGCONSULTANCY