Hadoop operatiu en l'arquitectura de dades de nova generació

Autora: Roger Morrison
Data De La Creació: 20 Setembre 2021
Data D’Actualització: 1 Juliol 2024
Anonim
Hadoop operatiu en l'arquitectura de dades de nova generació - Tecnologia
Hadoop operatiu en l'arquitectura de dades de nova generació - Tecnologia

Content



Font: Romeo1232 / Dreamstime.com

Emportar:

Hadoop serà un actor clau en l’arquitectura de dades de nova generació a causa de la seva capacitat per manejar grans quantitats de dades.

La utilitat d’Hadoop comença a anar més enllà del processament i les analítiques de grans dades a mesura que la indústria vingui a exigir-ne més. Hadoop es manté constantment a diversos requeriments relacionats amb l'arquitectura de dades empresarials i manté els punts forts originals. La llista de què pot fer i està fent Hadoop actualment és bastant llarga. Hadoop ara és capaç de processar grans volums de càrregues de treball transaccionals, una tasca que antigament s’esperava de les tecnologies tradicionals. En el futur, hi ha moltes possibilitats per a Hadoop en el futur. Per exemple, els sistemes de transacció basats en SQL poden utilitzar un motor SQL Hadoop i Hadoop també afegirà moltes funcions RDBMS. Podeu dir que Hadoop s'està convertint en un híbrid de processament de dades i capacitats analítiques amb capacitats d'arquitectura empresarial.


Què és l'arquitectura de dades de nova generació?

Dit d'una altra manera, l'arquitectura de dades de darrera generació és una forma evolucionada de l'arquitectura de dades. Tot, inclosos els models de dades, les polítiques de dades, les regles i els estàndards que regeixen la manera de recollir, emmagatzemar, ordenar, analitzar o processar, integrar, utilitzar i distribuir dades, ha evolucionat sota l'arquitectura de dades de propera generació.

La principal diferència entre l’arquitectura de dades anterior i l’arquitectura de dades de darrera generació és la capacitat d’aquesta darrera per recollir, emmagatzemar i processar enormes volums de dades, també coneguts com a big data, en temps real. L’arquitectura realitza totes aquestes tasques complexes sense comprometre’s en els estàndards de privadesa, seguretat i governança de dades.

L'arquitectura de dades de nova generació té molts reptes. No és fàcil manejar el volum, la velocitat i la varietat de dades grans. Afegiu els requisits d’optimitzar la càrrega de treball del sistema, millorar les prestacions, la velocitat i la precisió i la reducció de costos. No cal dir que l'arquitectura de dades precedent no va haver de gestionar aquestes demandes.


Així doncs, els CIO i els arquitectes d’informació volen trobar una solució que els ajudi a assolir els seus objectius. Operador Hadoop ha estat en focus durant un temps en aquest apartat. Les seccions següents tractaran sobre com Hadoop pot solucionar problemes operatius.

Expectatives d'Hadoop a l'arquitectura de nova generació

Les empreses estan en pressió creixent per obtenir millors resultats i els efectes es redueixen a les expectatives de les tecnologies. Així doncs, ja no s’espera que Hadoop només processi dades. Les CIO i CTO volen més de Hadoop. A continuació, es mostra una llista d’expectatives d’Hadoop. De fet, Hadoop ja s'ha traduït en algunes d'aquestes expectatives.

Es preveu que Hadoop funcioni amb sistemes de transaccions basats en SQL i que tinguin capacitats de creació, lectura, actualització i eliminació. Els sistemes de transacció aprofitaran el motor SQL. Els sistemes també comptaran amb la conformitat completa del sistema operatiu portàtil (POSIX) i la capacitat de processar grans volums de transaccions.

Es preveu que Hadoop admet funcions com ara còpia de seguretat, tolerància a errades, recuperació i recuperació de desastres. Perquè Hadoop evolucioni cap a un sistema amb capacitats RDBMS, ha de ser compatible amb les eines informàtiques existents.

Hadoop ja treballa en el compliment de les expectatives, com es desprèn d’alguns avenços. Hadoop pot proporcionar anàlisis i respostes ràpides en temps real basant-se en el suport de gestió de recursos proporcionat per YARN. YARN és un sistema operatiu a gran escala i distribuït per a aplicacions de big data, a més de ser un gestor de recursos. Es coneixen altres novetats com la d'Apache Storm, arquitectures distribuïdes a la memòria com Apache Spark, Apache Hive, Drill i MapR-FS (una substitució HDFS d'alt rendiment) per oferir diverses capacitats completes de bases de dades, com ara les còpies de seguretat, la recuperació de desastres, la tolerància a les falles, etc. (per obtenir més informació sobre YARN, vegeu Quins avantatges té el quadre Hadoop 2.0 (YARN)?)

Quins valors es pot afegir Hadoop a l'arquitectura de dades de nova generació?

Els valors operatius que Hadoop es pot afegir a l’arquitectura de dades de darrera generació es poden visualitzar des de dues perspectives: una, si compleix les expectatives descrites anteriorment, i dues, si està fent alguna cosa addicional. A continuació, es mostren els valors destacats que pot aportar Hadoop.

Hadoop ara és capaç de proporcionar més escalabilitat i maneig de dades de la seva plataforma a través de l’HDFS. I el sistema operatiu de dades s’ha habilitat a través de les aplicacions YARN de Hadoop. Aquesta estratègia representa un canvi en l'arquitectura de dades a un nivell fonamental. Ara, Hadoop pot emmagatzemar diversos tipus de dades, com bases de dades orientades a transaccions, bases de dades gràfiques i bases de dades de documents i aquestes dades es poden accedir a través de les aplicacions YARN. No cal duplicar ni traslladar les dades a altres ubicacions.

Rendiment millorat com a arquitectura de dades empresarials

Hadoop està en marxa per convertir-se en el sistema principal de l'arquitectura de dades empresarials. A mesura que Hadoop s’endinsi més en l’arquitectura de dades empresarials, les sitges de dades s’aniran eliminant a mesura que s’eliminin les línies entre elles. Hi haurà una millora ràpida en gairebé tots els aspectes. Les millores es produeixen en formats de fitxers més eficients, millor rendiment del motor SQL, sistemes de fitxers millorats i robustesa que satisfan les necessitats de les aplicacions empresarials.

Diferència entre Hadoop i altres tecnologies

En el passat, la diferència principal entre les tecnologies Hadoop i les empreses de dades va ser la gran capacitat de processament, informació i analítica de dades de Hadoop. Ara, a mesura que l’operativa Hadoop es converteix en una part més de l’arquitectura de dades empresarials, la diferència entre les entitats s’està tornant a difuminar. Així doncs, Hadoop operacional està apareixent com una alternativa superior a l'arquitectura de dades empresarial existent.

Conclusió

Tenint en compte les expectatives i el progrés, Hadoop estarà al centre de la indústria durant força temps. Però té sentit no centrar-nos massa en Hadoop i simplement ignorar altres tecnologies. Això passa perquè altres tecnologies avançaran en els mateixos paràmetres i fins i tot podrien superar Hadoop. Mai no és bo tenir un monopoli al mercat. És bo que els fabricants d’altres tecnologies que no pas Hadoop estiguin motivats a oferir millors productes i fins i tot plug-ins que ajudin a Hadoop a millorar el seu rendiment.