Nvidian GPU: t ovat edenneet pitkälle, ei vain pelisuorituskyvyn suhteen, vaan myös muissa sovelluksissa, erityisesti tekoälyssä ja koneoppimisessa. Kaksi päätekijää, jotka vastaavat Nvidian GPU-suorituskyvystä, ovat CUDA- ja Tensor-ytimet, jotka ovat läsnä lähes kaikissa nykyaikaisissa Nvidian GPU: issa, joita voit ostaa.

Mutta mitä nämä ytimet tarkalleen ottaen tekevät, ja jos niitä molempia käytetään tekoäly- ja koneoppimissovelluksissa, miten ne eroavat toisistaan?

Mitä ovat CUDA-ytimet ja mihin niitä käytetään?

CUDA tulee sanoista Compute Unified Device Architecture, joka ei juurikaan selitä niiden läsnäoloa GPU: ssa. Nämä ytimet otettiin käyttöön Nvidian GPU-sarjassa vuoden 2014 Maxwell-arkkitehtuurissa, ja ne ovat erikoistuneet rinnakkaiskäsittelyyn.

Ne ovat toiminnaltaan melko samanlaisia ​​​​kuin CPU-ytimet, mutta ne käsittelevät paremmin tiettyjä tehtäviä, mukaan lukien salaustiivisteet, fysiikkamoottorit, tietotieteeseen liittyvät projektit ja jopa pelit kehitystä.

Kuvan luotto: Nvidia
instagram viewer

Kun olemme jo käsitelleet miten CUDA-ytimet vaikuttavat tietokoneesi pelisuoritukseen, ne ovat yhtä hyödyllisiä numeroiden murskaamisessa. Vaikka tehokkaimmissakin suorittimissa on kaksinumeroisia ytimiä, Nvidian GPU: issa on useita tuhansia CUDA-ytimiä, mikä tekee niistä paljon nopeampia numeerisella työkuormalla. Lisäksi, koska he tekevät nämä laskelmat rinnakkain, saat paljon suuremmat nopeudet CUDA-ytimillä.

CUDA-ytimet ovat nopeampia kuin huippuluokan prosessoriytimet mitä tulee murskaukseen, mutta ne eivät silti ole ihanteellinen ratkaisu. Tämä johtuu siitä, että niitä ei koskaan ollut tarkoitus käyttää sellaisella tavalla. CUDA-ytimet on suunniteltu graafista käsittelyä varten ja Nvidian grafiikkasuorittimen parantamiseksi pelisuorituskyvyssä.

Mitä ovat tensoriytimet ja mihin niitä käytetään?

Kun GPU: ita alettiin käyttää tekoälyyn ja koneoppimiseen, Nvidia otti vuodesta 2017 alkaen käyttöön Tensor-ytimet Volta-arkkitehtuurissa datakeskusten GPU: issa.

Kesti kuitenkin Nvidia Turing -arkkitehtuurilta (RTX 20-Series GPU: t), ennen kuin nämä ytimet tulivat kuluttajien GPU: ihin. Muistaa että vaikka GTX 16-sarjan kortit perustuvat myös Turing-arkkitehtuuriin, ne eivät sisällä säteenseurantaa tai Tensoria ytimet.

Vaikka CUDA-ytimet olivat parhaimmillaankin riittäviä laskennalliseen työmäärään, Tensor-ytimet nostivat etua olemalla huomattavasti nopeampia. Vaikka CUDA-ytimet voivat suorittaa vain yhden toiminnon kellojaksoa kohden, Tensor-ytimet voivat käsitellä useita toimintoja, mikä antaa niille uskomattoman suorituskyvyn. Pohjimmiltaan kaikki Tensor-ytimet tekevät matriisin kertolaskunopeuden lisäämisen.

Tämä laskentanopeuden lisäys tapahtuu tarkkuuden kustannuksella, ja CUDA-ytimet ovat huomattavasti tarkempia. Kuitenkin, mitä tulee koneoppimismallien koulutukseen, Tensor-ytimet ovat paljon tehokkaampia laskentanopeuden ja kokonaiskustannusten suhteen; siksi tarkkuuden menetys jätetään usein huomiotta.

Kuinka Tensor- ja CUDA-ytimet vaikuttavat GPU: n suorituskykyyn?

Kuten luultavasti jo arvaatte, vaikka CUDA- ja Tensor-ytimet pystyvät käsittelemään samoja työkuormia, ne ovat molemmat erikoistuneita ytimiä grafiikan renderöintiin ja vastaavasti numeeriseen työmäärään.

Tämä tarkoittaa, että riippuen käyttäjästä, jolle tietty GPU on kohdistettu, sillä on eri määrä ytimiä. Jos esimerkiksi otamme huomioon RTX 4090:n, Nvidian uusimman ja parhaan kuluttajille suunnatun peligrafiikkasuorittimen, saat paljon enemmän CUDA-ytimiä kuin Tensor-ytimiä. Tarkemmin sanottuna 16 384 CUDA-ytimistä 512 Tensor-ytimeen.

Vertailun vuoksi, datakeskusten Nvidia L40 GPU, joka perustuu samaan Ada Lovelace -arkkitehtuuriin kuin RTX 4090, sisältää 18 176 CUDA-ydintä ja 568 Tensor-ydintä. Tämä ei ehkä vaikuta suurelta erolta, mutta se voi vaikuttaa suuresti näiden GPU: iden suorituskykyyn.

Teoreettisen suorituskyvyn osalta L40:ssä on 90,52 TFlops FP16- ja FP32-suorituskykyä sekä 1414 GFlops FP64-suorituskykyä. Tämä on valtava suorituskyvyn lisäys verrattuna RTX 4090:n 82,58 TFlops FP16- ja FP32-suorituskykyyn ja 1290 GFlops FP64-suorituskykyyn.

Jos et tunne GPU: n numeerisia suorituskykylukuja, yllä olevat Nvidian GPU: n liukulukuluvut eivät välttämättä merkitse sinulle paljon. Lyhyesti sanottuna ne kuitenkin osoittavat, että L40 on paljon nopeampi kuin RTX 4090, mitä tulee numeerisiin laskelmiin – tekoälyyn ja koneoppimiseen perustuviin työkuormiin.

Suorituskyvyn parantumisesta tulee entistäkin vaikuttavampi, kun otetaan huomioon kahden grafiikkasuorittimen virrankulutus. RTX 4090:ssä on mitoitettu TGP (ei pidä sekoittaa TDP: hen, sillä on pieni ero) 450 wattia, kun taas L40:n teho on vain 300 wattia.

Molemmat GPU: t ajavat pelejä ja kouluttavat koneoppimismalliasi hienosti. RTX 4090 on kuitenkin parempi pelaamaan pelejä ja L40 paremmin koneoppimismalleja.

CUDA Cores vs. Tensoriytimet: kumpi on tärkeämpää?

Molemmat ytimet ovat yhtä tärkeitä riippumatta siitä, ostatko GPU: n pelaamista varten vai laitatko sen datakeskuksen telineeseen. Nvidian kuluttajille suunnatut peligrafiikkasuorittimet käyttävät joukon tekoälyominaisuuksia (varsinkin DLSS), ja Tensor-ytimet voivat olla hyödyllisiä.

Tietokeskusten GPU: iden osalta CUDA- ja Tensor-ytimet toimivat joka tapauksessa suurimman osan ajasta rinnakkain, joten saat molemmat valitsemastasi GPU: sta riippumatta. Sen sijaan, että keskittyisit tietyntyyppiseen GPU: n ytimeen, sinun tulisi keskittyä enemmän siihen, mitä näytönohjain tekee kokonaisuutena ja minkä tyyppiselle käyttäjälle se on tarkoitettu.

CUDA-ytimet ovat erikoistuneet käsittelemään graafisia työkuormia, kun taas Tensor-ytimet ovat parempia numeerisissa. He työskentelevät yhdessä ja ovat jossain määrin vaihtokelpoisia, mutta hoitavat omat erikoisalansa, minkä vuoksi ne ovat olemassa.

Eri GPU: t ovat erikoistuneet eri näkökohtiin. RTX 4090 murskaa helposti minkä tahansa siihen heittämäsi pelin, kun taas RTX 4060 pystyy käsittelemään vain 1080p-pelaamista. Jos et pelaa GPU: lla ja tarvitset sitä vain numeroiden murskaamiseen tai neuroverkkojen harjoittamiseen, A-sarjan datakeskuksen GPU, kuten A100 tai jopa L40, on paras vaihtoehto.

GPU-ytimilläsi on väliä

Enemmän GPU-ytimiä parantaa yleistä suorituskykyä, koska GPU on monipuolisempi ja siinä on resurssit erilaisten tehtävien hoitamiseen. Suurimman ydinmäärän GPU: n hankkiminen sokeasti ei kuitenkaan ole paras päätös. Harkitse huolellisesti käyttötapaustasi, tarkastele GPU: n ominaisuuksia kokonaisuudessaan ja tee sitten valintasi.