Quins avantatges té el framework Hadoop 2.0 (YARN)?

Autora: Roger Morrison
Data De La Creació: 18 Setembre 2021
Data D’Actualització: 1 Juliol 2024
Anonim
Quins avantatges té el framework Hadoop 2.0 (YARN)? - Tecnologia
Quins avantatges té el framework Hadoop 2.0 (YARN)? - Tecnologia

Content


Font: Jim Hughes / Dreamstime.com

Emportar:

YARN és una millora significativa respecte al marc Hadoop 1.0. Aquí examinem alguns dels avantatges que té respecte al seu predecessor.

Des de l’introducció del concepte de big data, ha passat per múltiples fases d’evolució. Hadoop es va introduir el 2005 amb algunes característiques inicials, com ara el motor de processament MapReduce, que va permetre la càrrega de treball de processament de dades a gran escala distribuïda en clústers. El propi Hadoop ha experimentat molts canvis i ha desenvolupat marcs i mètodes avançats.

YARN és un component bàsic d’Hadoop 2.0. Bàsicament gestiona els recursos en un entorn agrupat. El corredor de YARN interacciona amb els recursos de càlcul (en nom de les aplicacions) i assigna recursos a cada aplicació en funció de diferents criteris de filtratge.

En aquest article, analitzarem els avantatges principals de YARN respecte a Hadoop 1.0.


Què és el Framework YARN?

Iet Aíntegre Resource Negotiator és un component bàsic d’Hadoop 2.0, que gestiona els recursos en un entorn agrupat. El marc Hadoop YARN és una versió avançada d’Hadoop 1.0 que proporciona un rendiment millorat, beneficiós per a l’ecosistema Hadoop i tota la gamma de tecnologies associades a ell. Ara que coneixem una mica més el YARN, donem un cop d’ull a Hadoop 1.0 i YARN.

Limitacions del marc Hadoop 1.0

Per entendre els avantatges del marc de YARN, és molt important comprendre com funciona Hadoop 1.0 i quines són les limitacions d’aquest marc.

És aquí on entra el paper de JobTracker. Gestiona els recursos del clúster i determina l'execució del treball MapReduce. En poques paraules, JobTracker programa i reserva les ranures de tasques i configura i monitoritza cada tasca en execució. Si una tasca falla, es torna a assignar un nou espai perquè la tasca es torni a iniciar. Un cop finalitzada una tasca, JobTracker allibera l'espai per a altres tasques i neteja els recursos temporals.


Desavantatges importants del plantejament anterior:

  • Disponibilitat: JobTracker és l'únic punt de disponibilitat de Hadoop 1.0. Això vol dir que si JobTracker falla, totes les tasques es reiniciaran de manera predeterminada.
  • Escalabilitat limitada: ja que JobTracker realitza diverses tasques i s’executa en una sola màquina, les altres màquines disponibles no s’utilitzen; per tant, es tradueix en una escalabilitat limitada.
  • Utilització de recursos: en l'enfocament anterior, es predefineixen les franges horàries i els espais reduïts. Pot passar que una de les ranures estigui plena, però les altres ranures de màquina estan buides. Com que les ranures buides estan reservades, seran inactives en lloc de comprometre's per a les ranures completes. Això pot causar un problema d’ús de recursos.
  • Execució d'aplicacions que no siguin MapReduce: JobTracker és una aplicació creada per al framework MapReduce. El problema sorgeix quan una aplicació no MapReduce intenta executar-se en aquest marc. L'aplicació s'ha de complir amb la programació del marc MapReduce per poder executar-se amb èxit. Alguns dels problemes comuns a què s'enfronten aquests problemes inclouen problemes amb:
    • Consulta ad-hoc
    • Anàlisi en temps real
    • aproximació passant
  • Fallada en cascada: un dels problemes principals en aquest marc es produeix quan el nombre de nodes és superior a 4.000. En un escenari així, es produeix un fracàs en cascada, provocant un deteriorament del clúster complet.

Aquestes són algunes de les limitacions principals a les quals es treballa aquest marc. Hi ha també algunes altres limitacions menors que no s'esmenten. El marc de YARN es va introduir per superar aquestes limitacions.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Marco de YARN i els seus avantatges

El marc de YARN, introduït a Hadoop 2.0, té per objectiu compartir les responsabilitats de MapReduce i tenir cura de la tasca de gestió del clúster. Això permet a MapReduce executar només processament de dades i, per tant, racionalitzar el procés.

YARN aporta el concepte d'una gestió central de recursos. Això permet que diverses aplicacions s’executin a Hadoop, compartint una gestió comuna de recursos.

Alguns dels components principals del marc de YARN són:

  • ResourceManager: el component ResourceManager és el negociador d’un clúster per a tots els recursos presents en aquest clúster. A més, aquest component es classifica en un gestor d'aplicacions encarregat de gestionar les tasques dels usuaris. Des de Hadoop 2.0, qualsevol treball MapReduce serà considerat com una aplicació.
  • ApplicationMaster: aquest component és el lloc on existeix una tasca o aplicació. També gestiona tots els treballs MapReduce i es conclou un cop finalitzada la tramitació de treballs.
  • NodeManager: el component del gestor de nodes actua com el servidor de l'historial de treballs. S'encarrega de la informació de les tasques finalitzades. També fa un seguiment de les tasques dels usuaris juntament amb el seu flux de treball per a un determinat node.

Tenint en compte que el marc YARN té diferents components per gestionar les diferents tasques, vegem com contraresta les limitacions d’Hadoop 1.0.

  • Millor ús dels recursos: el marc YARN no té cap ranura fixa per a les tasques. Proporciona un gestor de recursos central que us permet compartir diverses aplicacions mitjançant un recurs comú.
  • Execució d'aplicacions que no siguin MapReduce: a YARN, les capacitats de planificació i gestió de recursos estan separades del component de processament de dades. Això permet a Hadoop executar diversos tipus d'aplicacions que no s'ajusten a la programació del marc Hadoop. Els clústers de Hadoop són capaços d’executar consultes interactives independents i de realitzar anàlisis millors en temps real.
  • Compatibilitat endarrerida - YARN es converteix en un marc compatible enrere, cosa que significa que qualsevol tasca existent de MapReduce es pot executar a Hadoop 2.0.
  • JobTracker ja no existeix: els dos grans rols del JobTracker eren la gestió de recursos i la planificació de treballs. Amb la introducció del marc de YARN, aquests es divideixen en dos components separats, a saber:
    • NodeManager
    • ResourceManager

Conclusió

La introducció del marc de YARN ha facilitat la creació d'aplicacions per a desenvolupadors d'Hadoop. Ara, les aplicacions ja no s'han d'implementar amb eines de tercers. YARN és un canvi enorme que permetrà als usuaris considerar Hadoop 2.0 crear aplicacions i manipular dades de manera més eficaç. Amb el temps, es produiran nous desenvolupaments per millorar la usabilitat d’Hadoop. Per ara, el marc de YARN jugarà un paper crucial a l’hora de fer front als problemes existents i crear un entorn lliure de molèsties, que és més versàtil que la versió anterior del model MapReduce.