Els 10 termes més importants d’Hadoop que cal conèixer i comprendre

Autora: Eugene Taylor
Data De La Creació: 10 Agost 2021
Data D’Actualització: 1 Juliol 2024
Anonim
Els 10 termes més importants d’Hadoop que cal conèixer i comprendre - Tecnologia
Els 10 termes més importants d’Hadoop que cal conèixer i comprendre - Tecnologia

Content



Font: Trueffelpix / Dreamstime.com

Emportar:

Per entendre realment les dades grans, heu d’entendre una mica sobre Hadoop i el llenguatge que l’envolta.

Les dades grans, el nom atractiu per a volums massius de dades estructurades, no estructurades o semestructurades, són notòriament difícils de capturar, emmagatzemar, gestionar, compartir, analitzar i visualitzar, si més no mitjançant bases de dades i aplicacions de programari tradicionals. És per això que les tecnologies de dades grans tenen el potencial de gestionar i processar volums massius de dades de manera eficaç i eficaç. I el seu Apache Hadoop, que proporciona el marc i les tecnologies associades per processar grans conjunts de dades en clústers d’ordinadors de forma distribuïda. Per tant, per entendre realment les dades grans, heu d’entendre una mica sobre Hadoop. Aquí feu una ullada als termes principals que escolteu sobre Hadoop i què signifiquen.


Però primer, repassa com funciona Hadoop

Abans d’entrar a l’ecosistema Hadoop, heu d’entendre clarament dues coses fonamentals. El primer és com es guarda un fitxer a Hadoop; el segon és com es processen les dades emmagatzemades. Totes les tecnologies relacionades amb Hadoop funcionen principalment en aquestes dues àrees i la fan més fàcil d’utilitzar. (Obteniu els conceptes bàsics sobre com funciona Hadoop a Com Hadoop ajuda a resoldre el problema de grans dades.)

Ara, seguint els termes.

Hadoop Comú

El marc Hadoop té diferents mòduls per a diferents funcionalitats i aquests mòduls poden interactuar entre ells per diversos motius. Hadoop Common es pot definir com una biblioteca d’utilitat comuna per donar suport a aquests mòduls a l’ecosistema Hadoop. Aquestes utilitats són bàsicament fitxers JAR basats en Java i arxivats. Aquestes utilitats són utilitzades principalment per programadors i desenvolupadors durant el temps de desenvolupament.


Sistema d'arxius distribuïts Hadoop (HDFS)

El Sistema de fitxers distribuïts Hadoop (HDFS) és un sub-projecte d'Apache Hadoop de la base de la Apache Software Foundation. Aquesta és la columna vertebral de l’emmagatzematge en el marc Hadoop. És un sistema de fitxers distribuït, escalable i que tolera les errades que s'estén per diversos maquinaris de productes bàsics coneguts com el clúster Hadoop. L’objectiu de HDFS és emmagatzemar un gran volum de dades de forma fiable amb un accés de gran rendiment a les dades de l’aplicació. L’HDFS segueix l’arquitectura mestre / esclau, on el mestre es coneix com a NameNode i els esclaus es coneixen com a DataNodes.

MapReduce

Hadoop MapReduce és també un sub-projecte de la Apache Software Foundation. MapReduce és en realitat un marc de programari escrit exclusivament en Java. El seu objectiu principal és processar grans conjunts de dades en un entorn distribuït (integrat amb maquinari de productes bàsics) de forma totalment paral·lela. El marc gestiona totes les activitats com la planificació de treballs, el seguiment, l'execució i la reexecució (en el cas de les tasques fallides).

HBase

Apache HBase es coneix com la base de dades Hadoop. És un magatzem de dades gran, columnar, distribuït i escalable. També es coneix com un tipus de base de dades NoSQL que no és un sistema de gestió de bases de dades relacional. Les aplicacions de HBase també s’escriuen en Java, construït a la part superior d’Hadoop i s’executa en HDFS. HBase s’utilitza quan necessiteu lectura / escriptura en temps real i accés aleatori a dades grans. HBase es basa en els conceptes de Googles BigTable.

Rusc

Apache Hive és un sistema de programari de magatzem de dades de codi obert. L’Hive va ser desenvolupat originalment abans d’haver estat sota l’Apache Software Foundation i es va convertir en codi obert. Facilita la gestió i la consulta de grans conjunts de dades en un emmagatzematge compatible Hadoop distribuït. Hive realitza totes les seves activitats mitjançant un llenguatge similar al SQL conegut com HiveQL. (Obteniu més informació en Breu introducció a Apache Hive and Pig.)

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Porc Apache

Yahoo va ser iniciada inicialment per Yahoo per desenvolupar i executar treballs MapReduce en un gran volum de dades distribuïdes. Ara s'ha convertit en un projecte de codi obert sota l'Apache Software Foundation. Apache Pig es pot definir com una plataforma per analitzar conjunts de dades molt grans de manera eficient. La capa d'infraestructura dels porcs produeix seqüències de treballs MapReduce per fer el processament real. La capa de llenguatge dels porcs es coneix amb el nom de Pig Latin i proporciona funcions similars a SQL per realitzar consultes sobre conjunts de dades distribuïdes.

Chispa Apache

Spark va ser originalment desenvolupat per l'AMPLab a UC Berkeley. Es va convertir en un projecte de primer nivell d'Apache el febrer de 2014. Apache Spark es pot definir com un marc de computació de clúster de codi obert de propòsit general que fa que les analítiques de dades siguin molt més ràpides. Està construït a la part superior del sistema de fitxers distribuïts de Hadoop, però no està enllaçat amb el marc MapReduce. El rendiment de les espurnes és molt més ràpid en comparació amb MapReduce. Proporciona API d’alt nivell a Scala, Python i Java.

Apache Cassandra

Apache Cassandra és una altra base de dades NoSQL de codi obert. Cassandra s’utilitza àmpliament per gestionar grans volums d’estenes de dades estructurades, semestructurades i no estructurades a diversos centres de dades i emmagatzematge al núvol. Cassandra està dissenyada basant-se en una arquitectura "sense mestres", cosa que significa que no és compatible amb el model mestre / esclau. En aquesta arquitectura, tots els nodes són iguals i les dades es distribueixen de forma automàtica i igual a tots els nodes. Les funcions més importants de Cassandras són la disponibilitat contínua, l'escalabilitat lineal, la replicació integrada / personalitzable, el punt de fracàs i la simplicitat operativa.

Un altre negociador de recursos (YARN)

Un altre negociador de recursos (YARN) també es coneix com a MapReduce 2.0, però en realitat es troba en Hadoop 2.0. YARN es pot definir com un marc de planificació de treballs i de gestió de recursos. La idea bàsica de YARN és substituir les funcionalitats de JobTracker per dos daemons separats responsables de la gestió de recursos i la planificació / seguiment. En aquest nou marc, hi haurà un ResourceManager global (RM) i un màster específic d’aplicació conegut com ApplicationMaster (AM). El ResourceManager global (RM) i NodeManager (per node esclau) formen el marc real de càlcul de dades. Les aplicacions MapReduce v1 existents també es poden executar amb YARN, però cal aplicar-les de manera recopilada amb els pots de Hadoop2.x.

Impala

Impala es pot definir com un motor de consulta SQL amb potència de processament paral·lel (MPP) massiu. S'executa originàriament al marc Apache Hadoop. Impala està dissenyat com a part de l’ecosistema Hadoop. Comparteix el mateix sistema de fitxers flexible (HDFS), metadades, gestió de recursos i marcs de seguretat que els altres components de l'ecosistema Hadoop. El punt més important és tenir en compte que Impala és molt més ràpid en el processament de consultes en comparació amb el Rusc. Però també hem de recordar que Impala està destinada a la consulta / anàlisi sobre un conjunt reduït de dades, i està dissenyat principalment com a eina d’anàlisi que treballa en dades processades i estructurades.

Hadoop és un tema important en informàtica, però hi ha qui es mostra escèptic sobre la seva viabilitat a llarg termini. Més informació a Què és Hadoop? Una teoria cínica.