AMD: n Instinct GPU -sarja on tulossa suosituksi tietojenkäsittely- ja tekoälyyhteisössä. Tässä on syy.

Ei ole epäilystäkään siitä, että NVIDIA hallitsee edelleen rinnakkaislaskentaa monien suosittujen GPU-sarjojensa ansiosta. Mutta AMD: n Instinct AI -kiihdyttimillä, jotka varustavat kaksi uusinta ja suurinta supertietokonetta (Frontier ja El Capitan) ja yhteisön kasvava tuki avoimen lähdekoodin ROCm-alustalle, NVIDIA on ehkä löytänyt suurimman kilpailijansa.

Mitä siis tarkalleen ovat AMD: n Instinct AI -kiihdyttimet? Mikä tekee niistä tehokkaita, ja miten niitä verrataan NVIDIAn Tensor-grafiikkasuorittimiin?

Mikä on AMD Instinct -prosessori?

AMD: n Instinct-prosessorit ovat yritystason laitteita, joita käytetään korkean suorituskyvyn laskemiseen (HPC) ja tekoälyn kiihdytettyyn prosessointiin. Toisin kuin tavalliset kuluttajatason GPU: t, Instinct GPU: t on erikoistunut käsittelemään paremmin tekoälyoppimista ja muita korkean suorituskyvyn tehtäviä ohjelmisto- ja laitteistoinnovaatioiden avulla.

AMD: n Instinct-sarjan grafiikkasuoritteita käytettiin antamaan virtaa ensimmäiselle supertietokoneelle, joka rikkoi Exascale-esteen. Se suoriutui 1,1 EFLOP: lla kaksinkertaisella tarkkuudella sekunnissa. Instinct GPU: ia käyttäviä supertietokoneita käytetään tällä hetkellä syövänhoitojen, kestävän energian ja ilmastonmuutoksen tutkimukseen.

Kuinka Instinct-prosessorit nopeuttavat tekoälyä ja HPC: tä

varten maailman tehokkaimmat valtavirran palvelimet ja supertietokoneet Exascale-tason käsittelyn saavuttamiseksi AMD: n Instinct-kiihdyttimet piti varustaa useilla teknologisilla päivityksillä ja innovaatioilla.

Keskustellaan joistakin AMD Instinct GPU: issa käytetystä uudesta ja päivitetystä tekniikasta.

1. Laske DNA (CDNA)

Kuvan luotto: Pascal Liebart/AMDLibrary

Viimeaikaiset AMD Instinct -kiihdyttimet (MI100:sta alkaen) ovat käyttäneet yrityksen CDNA-arkkitehtuuria.

CDNA keskittyy ensisijaisesti ominaisuuksiin, kuten rinnakkaiskäsittelyyn, muistihierarkiaan ja optimoituun laskentasuorituskykyyn Matrix Core -teknologiansa avulla. CDNA voi tukea jopa HPC: tä ja tekoälyä tai koneoppimista, joka toimii yksittäisillä palvelimilla, samoin kuin valtavat Exascale-tietokoneet.

AMD: n Matrix Core -teknologia nopeuttaa tekoälyoppimista tukemalla sekatarkkuustoimintoja. Mahdollisuus laskea eri tarkkuudella antaa Instinct GPU: ille mahdollisuuden laskea tehokkaasti matriisioperaatioita tarvittavan tarkkuustason perusteella.

Suosituimpia tarkkuuslaskentamuotoja ovat FP64, FP32, FP16, BF16 ja INT8. FP tarkoittaa liukulukua, BF tarkoittaa Brain Floating Point ja INT kokonaislukua. Mitä suurempi muotoa vastaava luku, sitä tarkempi laskenta on. 64-bittistä toimintaa kutsutaan kaksinkertaiseksi tarkkuudella. 32-bittisellä se on yksitarkkuus, 16-bittisellä puolitarkkuudella ja niin edelleen.

Koska suuri osa syvän oppimismallien koulutuksesta ei vaadi paljon tarkkuutta, matriisin laskeminen puolet tai jopa neljännestarkkuudet päättelemiseen vähentävät merkittävästi työmäärää, mikä nopeuttaa tekoälyä oppimista.

2. High Bandwidth -muisti (HBM)

Kuvan luotto: Jason De Vos/AMDLibrary

Jokaisessa AMD Instinct AI -kiihdyttimessä on jopa 880 matriisiydintä. Koska AMD: n Matrix Core -prosessorit pystyvät tekemään 383 TFLOP: a puolitarkkoja laskelmia, tarvitaan erittäin nopeaa muistia. AMD: n uusimmat Instinct-tarjoukset on varustettu High Bandwidth -muistilla (HBM) tavallisen DDR4- tai DDR5-RAM-muistin sijaan.

Toisin kuin perinteinen muisti, HBM käyttää niin kutsuttua 3D-pinottua arkkitehtuuria. Tämän tyyppinen arkkitehtuuri viittaa suunnittelutapaan, jossa DRAM-muistit pinotaan pystysuunnassa päällekkäin. Tämä mahdollistaa muotit pinoamisen sekä pysty- että vaaka-akselille, mistä johtuu termi 3D-pinoaminen.

Tämän 3D-pinoamistekniikan avulla HBM: ien fyysinen muistikapasiteetti voi olla jopa muutama sata gigatavua moduulia kohden, kun taas DRR5 voi tehdä vain kymmeniä gigatavuja moduulia kohti. Kapasiteetin lisäksi HBM-muisteilla tiedetään olevan myös parempi suorituskyky siirtonopeuden ja paremman tehon suhteen kuin tavallisella DDR-muistilla.

3. Infinity kangas

Toinen Instinct GPU: ihin sisältyvä innovaatio on AMD: n Infinity Fabric -tekniikka. Infinity Fabric on eräänlainen liitäntäjärjestelmä, joka yhdistää prosessorit ja GPU: t älykkäällä dynaamisella tavalla. Tämä mahdollistaa komponenttien tehokkaan kommunikoinnin toistensa kanssa.

Infinity Fabricilla komponenttien yhdistämisen sijaan tavallisella väylällä komponentit yhdistetään nyt mesh-maiseen verkkoon, jossa kaistanleveydet voivat olla jopa useita satoja gigatavuja sekunnissa.

Verkkomaisen keskinäisen liitännän lisäksi Infinity Fabric käyttää jokaiseen suulakkeeseen upotettuja antureita dynaamisesti ohjaa taajuutta, tiedonsiirtonopeuksia ja muita mukautuvia käyttäytymismalleja, mikä optimoi suorituskykyä ja minimoi viive.

4. ROCm-kehitysalusta

NVIDIAn CUDA (compute Unified Device Architecture) on yleisimmin käytetty kehitysalusta tekoälymallien koulutukseen. CUDA: n ongelma on, että se toimii vain NVIDIA-grafiikkasuorittimien kanssa. Tämä on yksi tärkeimmistä syistä, miksi NVIDIAlla on ylivoimainen enemmistö HPC- ja AI GPU-kiihdyttimien markkinaosuuksista.

Koska AMD halusi saada suuremman osan HPC- ja tekoälymarkkinoista, heidän oli kehitettävä oma alusta, ROCm (Radeon Open Compute). ROCm on avoimen lähdekoodin ohjelmistoalusta, jonka avulla Instinct GPU: ita voidaan käyttää tekoälykiihdyttiminä.

Vaikka ROCm ei välttämättä kuulukaan Instinct-laitteistoon, se on olennainen osa Instinct-grafiikkasuorittimien linjan selviytymistä. ROCm: n, kehittäjien ja tutkijat saavat käyttöönsä ROCm-työkalut, kääntäjän, ytimen ajurit, joukon kirjastoja ja pääsyn kehyksiin, kuten TensorFlow ja PyTorch. mieluummin AI ohjelmointikieli.

Miten Instinct AI -kiihdyttimiä verrataan Radeonin GPU AI -kiihdyttimiin?

AMD tarjoaa Instinct-grafiikkasuorittimia yrityskäyttöön ja Radeon-grafiikkasuorittimia tavallisille kuluttajille. Kuten aiemmin mainittiin, Instinct GPU käyttää AMD: n CDNA-arkkitehtuuria, HBM- ja Infinity Fabric -yhteyttä. Toisaalta Radeon käyttää AMD: n RDNA-arkkitehtuuria, DDR6-muistia ja Infinity-välimuistia.

Vaikka Radeon-sarjan tekoälykiihdyttimet ovatkin vähemmän kyvykkäitä, ne tarjoavat silti yhden tai kaksi tekoälykiihdyttimen ydintä laskentayksikköä kohden. Viimeisin Radeon RX7900 XT GPU siinä on kaksi tekoälykiihdyttimen ydintä laskentayksikköä kohden, mikä mahdollistaa 103 TFLOP: n huipputason puolitarkkuuden ja 52 TFLOP: n huipputason yhden tarkkuuden laskentaa.

Vaikka Instinct-sarjan grafiikkasuorittimet sopivat paremmin LLM: ille ja HPC: lle, Radeon AI -kiihdyttimiä voidaan käyttää esikoulutettujen mallien hienosäätämiseen, päättelyyn ja grafiikkaa vaativiin tehtäviin.

AMD Instinct vs. NVIDIA Tensori

Mukaan a TrendForcen kysely, NVIDAn markkinaosuus palvelingrafiikkasuorittimissa on 80 %, kun taas AMD: llä on vain 20 %. Tämä NVIDIA: n ylivoimainen menestys johtuu siitä, että he ovat GPU-suunnitteluun ja -kokoonpanoon erikoistunut yritys. Tämän ansiosta he voivat suunnitella huomattavasti tehokkaampia GPU: ita, joita ei voi verrata muihin tarjouksiin.

Verrataan AMD: n Instinct MI205X: tä ja NVIDIAn H100SXM5:tä käyttämällä teknisiä tietoja AMD: n virallinen verkkosivusto ja NVIDIAn oma datalehti:

GPU malli

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOPS)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Kuten taulukosta näkyy, AMD: n MI250X toimii paremmin kaksoistarkkuuden ja puolitarkkuuden suhteen laskelmat, kun taas NVIDIAn H100SXMS on paljon parempi puolitarkkuuden ja neljännestarkkuuden matriisin suhteen laskelmat. Tämä tekee AMD: n MI250X: stä paremman soveltuvan HPC: lle, kun taas NVIDIAn H100SXMS: stä, jossa on tekoälyoppiminen ja johtopäätös.

AMD: n Instinct-prosessorien tulevaisuus

Vaikka AMD: n uusin tarjous, MI250X, on suunniteltu HPC: lle, heidän tuleva MI300 on enemmän tekoälyharjoittelusuuntautunut. Tämän tekoälykiihdyttimen on ilmoitettu olevan APU, joka yhdistää GPU: n ja CPU: n samassa paketissa. Tämän ansiosta MI300 voi käyttää CNDA3 Unified Memory APU -arkkitehtuuriaan, jossa GPU ja CPU käyttävät vain yhtä muistia, mikä lisää tehokkuutta ja alentaa hintaa.

Vaikka AMD ei kilpaile NVIDIAn kanssa tekoälykiihdytinmarkkinoilla tänään, kun MI300 julkaistaan ​​ja ROCm: stä tulee kiillotettuna AMD: n Instinct-sarja saattaa olla tarpeeksi hyvä kaappaamaan merkittävän osan tekoälykiihdytinmarkkinoista NVIDIA.