MapReduce on olennainen ohjelmointikonsepti, joka sinun on hallittava tullaksesi ammattimaiseksi tietosuunnittelijaksi. Se tarjoaa ratkaisuja hajautettuihin big data -tiedostojen hallintajärjestelmiin. Näin ollen MapReducen teoreettisen taustan ymmärtäminen tekee itse tekniikan oppimisesta helppoa.

Mutta mikä on MapReduce ja miten se toimii hajautetuissa tiedostojärjestelmissä? Se selviää tästä postauksesta.

Mikä on MapReduce?

MapReduce on tietotekniikan malli, jota sovelletaan ohjelmiin tai sovelluksiin, jotka käsittelevät big datan logiikkaa rinnakkaisissa palvelimien tai solmujen klustereissa. Se jakaa käsittelylogiikan useille datasolmuille ja aggregoi tulokset asiakaspalvelimelle.

MapReduce varmistaa, että käsittely on nopeaa, muistitehokasta ja luotettavaa tiedon koosta riippumatta.

Hadoop File System (HDFS), Google File System (GFS), Apache Kafka, GlusterFS ja muut ovat esimerkkejä hajautetuista suurdatatiedostojärjestelmistä, jotka käyttävät MapReduce-algoritmia.

Mikä on hajautettu tiedostojärjestelmä?

instagram viewer

Hajautettu tiedostojärjestelmä (DFS) on tietojenkäsittelyn tallennusmenetelmä, jossa suuret datatiedostot jaetaan pienempiin osiin ja haetaan useille järjestelmän palvelimille. Sen avulla eri lähteistä tulevat asiakkaat voivat kirjoittaa ja lukea tietoja, jakaa ja käyttää ohjelmoitavaa logiikkaa tiedoissa – mistä tahansa.

Hajautettu tiedostojärjestelmä koostuu tyypillisesti ensisijaisesta palvelimesta (jota kutsutaan myös nimellä NameNode Hadoopissa), rinnakkaisia ​​klustereita ja useita solmuja tai palvelimia, jotka sisältävät replikoituja datapaloja, kaikki tiedoissa keskusta. Jokainen hajautetun tiedostojärjestelmän klusteri sisältää kuitenkin satoja tai tuhansia näitä solmuja.

Ensisijainen palvelin havaitsee automaattisesti muutokset klustereissa. Joten se voi määrittää roolit kullekin solmulle vastaavasti.

Kun ensisijainen palvelin vastaanottaa datatiedoston, se lähettää sen DFS: n klustereille. Nämä klusterit lohkovat ja jakavat datan jokaiseen solmuun. Jokainen solmu replikoi sitten tiedot niin sanotuiksi tietolohkoiksi ketjun muodostamiseksi. Tässä vaiheessa jokaisesta solmusta tulee osapalvelin.

Aiheeseen liittyvä:Mitä ovat datakeskukset ja miksi ne ovat tärkeitä?

Tietoihin pääsyn hallinnan lisäksi ensisijainen palvelin pitää metatietomerkinnän jokaisessa tiedostossa. Tällä tavalla se tietää, mikä solmu käsittelee mitä tiedostoa kussakin klusterissa.

Kuinka MapReduce toimii hajautetuissa tiedostojärjestelmissä?

Kuten aiemmin mainittiin, iso data on saatavilla useissa DFS-palvelimissa. Yksi tapa suorittaa ohjelmoitava logiikka näille tiedostoille on koota ne yhdeksi. Voit sitten vetää ne yhdelle palvelimelle, joka nyt käsittelee logiikkaa.

Vaikka tämä on perinteinen tapa tiedustella tietoja, ongelmana on, että tiedoista tulee jälleen kokonaisuus yhden palvelimen sisällä. Joten yhden palvelimen on silti hallittava logiikkaa useilla petabtavuilla dataa kerralla. Valitettavasti tämä oli ongelma, jonka järjestelmä alun perin halusi ratkaista. Joten se ei loppujen lopuksi ole paras käytäntö.

Aiheeseen liittyvä:Kuinka tehdä kyselyä useista tietokantataulukoista kerralla SQL-liitoksilla

Lisäksi tällainen yhdistäminen yhdeksi palvelimeksi aiheuttaa useita suorituskykyriskejä. Nämä voivat vaihdella palvelimen kaatumisesta, huonosta laskentatehosta, korkeasta viiveestä, suuresta muistinkulutuksesta ja haavoittuvuuksista muihin.

Mutta toinen tapa käyttää ohjelmoitavaa logiikkaa on jättää tiedot paloiksi kunkin hajautetun palvelimen sisään. Ja sitten lisää logiikkatoiminto jokaiseen palvelimeen. Se tarkoittaa, että jokainen klusterin osapalvelin käsittelee nyt laskelmansa. Tämän lähestymistavan käyttäminen tarkoittaa, että tietoja ei tarvitse koota tai vetää yhdelle palvelimelle.

Että MapReduce-konsepti on hajautetussa datatiedostojärjestelmässä. Se varmistaa, että yhden palvelimen ei tarvitse hakea tietoja lähteestä. Sen sijaan se hajottaa käsittelytoiminnon (MapReduce) useisiin erillisiin solmuihin klustereita, joten jokainen solmu kussakin klusterissa käsittelee logiikkaa erikseen ylikuormittamatta yhtäkään palvelin.

Tämän seurauksena useat palvelimet käsittelevät logiikkaa databitteillä samanaikaisesti. Tämä työnjako palvelimien kesken johtaa muun muassa optimaaliseen suorituskykyyn ja korkeampaan tietoturvaan.

Miten MapReduce-tulos käsitellään DFS: ssä?

Näin koko MapReduce-käsittely toimii DFS: ssä:

  • Ensisijainen palvelin vastaanottaa suuren datakyselyn (MapReduce-toiminto) asiakkaalta.
  • Sitten se lähettää tämän jokaiseen klusteriin levittääkseen sen jokaiseen sen solmuun.
  • Jokainen solmu käsittelee MapReduce-funktion ja kumuloi sen tuloksen.
  • Toinen palvelin kokoaa kunkin solmun tulokset ja lähettää ne takaisin ensisijaiselle palvelimelle.
  • Ensisijainen palvelin lähettää sitten tuloksen vastauksena asiakkaalle.

Siten ensisijaisen palvelimen ainoa tehtävä on lähettää helposti laskettava tulos asiakkaalle, kuunnella muutoksia ja hallita pääsyä tietoihin. Se ei suorita laskelmia. Tästä syystä useimmat pilvisovellukset ovat hämmästyttävän nopeita käsittelemänsä datan määrästä huolimatta.

Mitä MapReducessa Map and Reduce tarkalleen ottaen on?

MapReduce käyttää kahta ohjelmointilogiikkaa käsittelemään suurta dataa hajautetussa tiedostonhallintajärjestelmässä (DFS). Nämä ovat kartta- ja vähennystoiminto.

The kartta -toiminto suorittaa käsittelytyön jokaisessa hajautetun tiedostojärjestelmän klusterin jokaisessa datasolmussa. The vähentää funktio kokoaa sitten kunkin palapalvelimen palauttamat tulokset ja välittää ne toiselle DFS: n palvelimelle tulosten yhdistämistä varten. Vastaanottava palvelin lähettää tämän laskelman ensisijaiselle palvelimelle, joka lähettää palautetun arvon asiakaspuolen palvelimelle.

Mitä tapahtuu, kun osapalvelin kaatuu?

Hajautetun tiedostojärjestelmän (DFS) palvelimet saattavat joskus kokea seisokkeja. Saatat ajatella, että tämä rikkoo koko järjestelmän, mutta se ei tee.

Tietojenkäsittelyssä on järjestelmä, joka estää tällaisen uhkaavan hajoamisen. Sitä kutsutaan vikasietokyvyksi.

Aiheeseen liittyvä:Mitä pilvilaskenta on? Miten pilviteknologia toimii?

Siten jopa silloin, kun palvelin sammuu tietojenkäsittelyn aikana, vikasietokyky varmistaa, että ensisijainen palvelin havaitsee sen välittömästi. Ja koska solmujen välillä on kopio tietopaloista, ensisijainen palvelin siirtää käsittelytyön välittömästi toiselle palvelimelle. Tällä tavalla palvelimen seisokkiaika DFS: ssä ei vaikuta tietojen käsittelyyn.

MapReduce helpottaa Big Datan käsittelyä

MapReduce on olennainen malli, joka tekee laskemisesta helppoa hajautetuissa tiedostojärjestelmissä. Koska useat solmut voivat suorittaa laskelmia samanaikaisesti, se on nopea menetelmä, jota useat teknologiajättiläiset käyttävät ratkaisemaan monia big data-analyysiin liittyviä ongelmia.

Google, Amazon, IBM, muun muassa ovat esimerkkejä yrityksistä, jotka käyttävät tätä konseptia. Google esimerkiksi käyttää MapReduce-konseptia tuodakseen hakutuloksia Google-haun aikana.

Mitä Big Data on, miksi se on tärkeää ja kuinka vaarallista se on?

Big data antaa voimaa monille toimialoille ja vaikuttaa meidän kaikkien elämään. Mutta onko se vaarallisempaa vai hyödyllisempää?

Lue Seuraava

JaaTweetSähköposti
Liittyvät aiheet
  • Ohjelmointi
  • Ohjelmointi
  • Suuri data
  • Tietojen analysointi
Kirjailijasta
Idowu Omisola (133 artikkelia julkaistu)

Idowu on intohimoinen kaikkeen älykkääseen tekniikkaan ja tuottavuuteen. Vapaa-ajallaan hän leikkii koodaamalla ja vaihtuu shakkilaudan ääreen, kun on kyllästynyt, mutta hän myös pitää välillä irtautumisesta rutiineista. Hänen intohimonsa näyttää ihmisille tietä modernin tekniikan parissa motivoi häntä kirjoittamaan lisää.

Lisää Idowu Omisolalta

tilaa uutiskirjeemme

Liity uutiskirjeemme saadaksesi teknisiä vinkkejä, arvosteluja, ilmaisia ​​e-kirjoja ja eksklusiivisia tarjouksia!

Klikkaa tästä tilataksesi