Quina diferència hi ha entre els nuclis CUDA i els nuclis tensor? (Explicat) - Totes les diferències

 Quina diferència hi ha entre els nuclis CUDA i els nuclis tensor? (Explicat) - Totes les diferències

Mary Davis

Els nuclis CUDA i Tensor són productes desenvolupats per una empresa anomenada Nvidia. Aleshores, què són els nuclis CUDA i els nuclis Tensor? CUDA són les sigles de Compute Unified Device Architecture. Els nuclis CUDA estan presents a les vostres GPU, telèfons intel·ligents i fins i tot als vostres cotxes, tal com diuen els desenvolupadors de Nvidia.

Els nuclis CUDA són una plataforma informàtica paral·lela i una interfície de programació d'aplicacions (API) que permet al programari utilitzar tipus específics d'unitats de processament de gràfics (GPU) per al processament de propòsit general.

Mentre que els nuclis de tensor que també van ser desenvolupats per Nvidia, també s'utilitzen a les GPU. Els nuclis de tensor permeten la informàtica de precisió mixta, adaptant els càlculs de manera dinàmica per augmentar el rendiment alhora que es manté la precisió.

En paraules senzilles, aquests nuclis són una part important de les GPU del vostre ordinador per fer certs càlculs. Els nuclis CUDA s'utilitzen per multiplicar dos nombres i sumar-los a un altre nombre.

Mientras que el nucli del tensor és el mateix però amb matrius 4×4. Aquests càlculs són bàsicament renderitzar gràfics més ràpid per a tu.

Què és CUDA?

Compute Unified Device Architecture, en resum, CUDA desenvolupat per Nvidia, llançat el 23 de juny de 2007, és una plataforma informàtica paral·lela i una interfície de programació d'aplicacions (API).

Això permet al programari utilitzar tipus específics d'unitats de processament de gràfics (GPU) per al processament de propòsit general, un mètode conegut com a informàtica de propòsit general enGPU (GPU).

CUDA és una capa de programari que proporciona accés directe al conjunt d'instruccions virtuals de la GPU i elements computacionals paral·lels per a l'execució de nuclis informàtics. CUDA es va desenvolupar per treballar amb diferents llenguatges de programació, inclosos C, C++ i Fortran.

La possibilitat de treballar amb diferents llenguatges de programació facilita que els especialistes en programació paral·lela facin ús dels recursos de la GPU si el diferenciem de les API anteriors com Direct3D o OpenGL, que requeririen tenir un ordinador més avançat. base d'habilitats en programació gràfica.

La GPU amb CUDA també admet marcs de programació, com ara OpenMP, OpenACC, OpenCL i també HIP, que poden compilar aquest codi a CUDA. El primer nom utilitzat per a CUDA va ser l'acrònim de Compute Unified Device Architecture. No obstant això, Nvidia més tard va abandonar l'acrònim d'ús comú.

Una potent targeta gràfica Nvidia GTX 1080 Ti

Més sobre CUDA

Com a processador informàtic especialitzat, la unitat de processament gràfic (GPU) satisfà les necessitats reals Càrregues de treball de gràfics en 3D amb un temps molt intensiu.

Al voltant del 2012, les GPU van evolucionar i s'havien convertit en sistemes multinúclis molt paral·lels que permeten un processament eficaç de dades per a grans blocs.

Quan es processen grans blocs de dades en paral·lel, aquest disseny és superior a les unitats de processament central (CPU) de propòsit general per a algorismes, com ara:

  • hash criptogràficfuncions
  • aprenentatge automàtic
  • simulacions de dinàmica molecular
  • motors físics
  • algorismes d'ordenació

Usos de l'arquitectura CUDA ara i en el futur

  • Renderització accelerada de gràfics en 3D
  • Interconversió accelerada de formats de fitxers de vídeo
  • Encriptació, desxifrat i compressió accelerats
  • Bioinformàtica, p. ex., seqüenciació d'ADN NGS BarraCUDA
  • Càlculs distribuïts, com ara predir la conformació nativa de proteïnes
  • Simulacions d'anàlisi mèdica, per exemple, realitat virtual basada en imatges d'exploració de TC i ressonància magnètica
  • Simulacions físiques, en particular en dinàmica de fluids
  • Formació de xarxes neuronals en problemes d'aprenentatge automàtic
  • Reconeixement de cares
  • Projectes d'informàtica distribuïts, com ara [email protected] i altres projectes que utilitzen BOINC
  • Dinàmica molecular
  • Mineria de criptomonedes
  • Programari d'estructura des del moviment (SfM)

Què és un nucli tensor?

Els nuclis especialitzats anomenats Tensor Cores permeten un entrenament de precisió mixta. La generació inicial d'aquests nuclis especialitzats ho fa amb un algorisme de multiplicació i suma fusionada. Això fa possible multiplicar i afegir dues matrius FP16 de 4 x 4 a una matriu FP16 o FP32 de 4 x 4.

Vegeu també: "Secundària" vs "escola secundària" (gramaticalment correcte) - Totes les diferències

El resultat final serà FP32 amb només una lleugera pèrdua de precisió, la informàtica de precisió mixta es designa com a tal tot i queles matrius d'entrada poden ser FP16 de baixa precisió.

A la pràctica, això accelera significativament els càlculs amb poca influència en l'eficàcia final del model. Aquesta capacitat s'ha ampliat per microarquitectures posteriors a representacions de números d'ordinador encara menys precises.

La primera generació es va introduir amb la microarquitectura Volta a partir de la V100, es van disposar de més formats de precisió de números d'ordinador per al càlcul amb noves microarquitectures de GPU amb cada generació que passava.

A la secció següent, parlarem de com la capacitat i la funcionalitat de Tensor Cores han canviat i millorat amb cada generació de microarquitectura.

Una imatge representada gràficament feta per un Titan V

Com funcionen els nuclis de tensor?

Primera generació:

La microarquitectura de la GPU Volta es va incloure amb la primera generació de Tensor Cores. Aquests nuclis van permetre entrenar amb precisió barrejada i el format de nombre FP16.

Això podria augmentar fins a 12 vegades el rendiment del teraFLOP per a determinades GPU. Els 640 nuclis del V100 de primer nivell ofereixen un augment de la velocitat de rendiment fins a 5 vegades respecte a les GPU Pascal de la generació anterior.

Segona generació:

Amb la introducció de les GPU Turing, es va introduir la segona generació de Tensor Cores. Int8, Int4 i Int1 es van afegir a la llista de precisions de Tensor Core admeses, que erenanteriorment limitat a FP16.

Vegeu també: És de 7 polzades una gran diferència d'alçada entre un home i una dona? (De debò) - Totes les diferències

A causa dels procediments d'entrenament de precisió mixtes, el rendiment de rendiment de la GPU es va augmentar fins a 32 vegades en comparació amb les GPU Pascal.

Tercera generació:

L'arquitectura d'una GPU Ampere amplia els avenços anteriors de les microarquitectures Volta i Turing afegint suport per a precisions FP64, TF32 i bfloat16.

Aquests formats de precisió addicional acceleren molt més les activitats de formació i inferència d'aprenentatge profund. Per exemple, el format TF32 funciona de manera similar a FP32 alhora que garanteix una velocitat de fins a 20 vegades sense alterar cap codi.

A continuació, amb només unes poques línies de codi, la implementació automàtica de precisió mixta accelerarà l'entrenament dues vegades més.

NVLink de tercera generació per permetre interaccions multi-GPU molt ràpides, nuclis de traçat de raigs de tercera generació i especialització amb matemàtiques de matriu escassa són aspectes addicionals de la microarquitectura Ampere .

Quarta generació:

Es preveu un llançament futur de la quarta generació de Tensor Cores basada en la microarquitectura Hopper. La quarta generació de Tensor Cores del proper H100.

que es preveu llançar al març de 2022, serà capaç de gestionar formats de precisió FP8 i, segons NVIDIA, accelerarà grans models d'idioma "en un sorprenent 30X". sobre la generació anterior.”

Una targeta gràfica RTX éss'utilitza per renderitzar gràfics molt ràpid, ja que conté nuclis tensor.

La diferència entre els nuclis CUDA i els nuclis tensor

Actualment, els nuclis tensor es limiten a Titan V i Tesla V100. Els nuclis 5120 CUDA d'ambdues GPU tenen una capacitat màxima d'una única operació d'acumulació de multiplicació de precisió (per exemple, en fp32: x += y * z) per rellotge de GPU (per exemple, la freqüència de Tesla V100 PCIe és 1,38 Gz).

Cada nucli tensor funciona en matrius petites 4×4 per a matrius petites. Per un rellotge de GPU, cada nucli tensor pot completar una operació de multiplicació i acumulació de matrius.

Multiplica dues matrius FP16 4×4 i afegeix la matriu FP32 4×4 que dóna lloc a l'acumulador (que també és una matriu FP32 4×4).

Com que les matrius d'entrada són fp16 mentre que els resultats de la multiplicació i l'acumulador són fp32, l'algorisme es coneix com a precisió mixta.

El terme correcte probablement seria només "nuclis de matriu 4 × 4", però l'equip de màrqueting de NVIDIA va optar per utilitzar "nuclis de tensor".

Explicació completa dels nuclis de tensor en poques paraules

Targeta GPU Nuclis CUDA VRAM
GeForce GTX 1660 Ti 1536 6 GB
GeForce GTX 1660 Super 1408 6GB
GeForce GTX 1660 1408 6GB
GeForce GTX 1650 Super 1408 4GB
GeForce GTX 1650 1024 i896 4GB
GeForce GTX 1060 3GB 1280 4GB
GeForce GTX 1650 1280 3GB
GeForce GTX 1060 6GB 768 6GB
GeForce GTX 1050 Ti (3GB) 768 4GB
GeForce GTX 1050 (2GB) 640 3GB
GeForce GTX 960 1024 2GB
GeForce GTX 950 786 2GB
GeForce GTX 780 Ti 2880 2GB
GeForce GTX 780 2304 3GB
GeForce GTX 750 Ti 640 2 GB
GeForce GTX 750 512 1 GB o 2 GB

Les GPU que contenen nuclis CUDA

Conclusió

  • Els nuclis CUDA i Tensor són productes, tots dos desenvolupats per una empresa anomenada Nvidia. CUDA són les sigles de Compute Unified Device Architecture. Aquests nuclis CUDA estan presents a les vostres GPU, telèfons intel·ligents i fins i tot als vostres cotxes.
  • Mentre que els nuclis de tensor, que també van ser desenvolupats per Nvidia, també s'utilitzen a les GPU. Els nuclis especialitzats anomenats "nuclis de tensor" permeten un entrenament de precisió mixta. La primera generació de Tensor Cores va permetre entrenar amb precisió barrejada i el format de nombre FP16.
  • Això podria augmentar fins a 12 vegades el rendiment del teraFLOP per a determinades GPU. Int8, Int4 i Int1 es van afegir a la llista de precisions de Tensor Core admeses.
  • A causa de la barrejaprocediments d'entrenament de precisió, el rendiment de la GPU es va augmentar fins a 32 vegades. Es preveu un llançament futur de la quarta generació de Tensor Cores basada en la microarquitectura Hopper.

Altres articles

    Mary Davis

    Mary Davis és una escriptora, creadora de continguts i una àvida investigadora especialitzada en l'anàlisi de comparacions sobre diversos temes. Amb una llicenciatura en periodisme i més de cinc anys d'experiència en el camp, Mary té una passió per oferir informació imparcial i directa als seus lectors. El seu amor per l'escriptura va començar quan era jove i ha estat el motor de la seva exitosa carrera en l'escriptura. La capacitat de Mary per investigar i presentar les troballes en un format fàcil d'entendre i atractiu l'ha fet estimar als lectors de tot el món. Quan no està escrivint, a Mary li agrada viatjar, llegir i passar temps amb la família i els amics.