Kudu: un canvi de jocs a l'ecosistema Hadoop?

Content

Què és Kudu?
Quin és l'estat actual de Kudus?
Com pot Kudu complementar HDFS / HBase?
Característiques del Framework Kudu
Com pot Kudu canviar l’ecosistema d’Hadoop?
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Conclusió

Font: Agsandrew / Dreamstime.com

Emportar:

Kudu és un projecte de codi obert que ajuda a gestionar l'emmagatzematge de manera més eficient.

Kudu és un nou projecte de codi obert que proporciona un emmagatzematge actualitzable. És un complement de HDFS / HBase, que proporciona emmagatzematge seqüencial i de només lectura. Kudu és més adequat per a l’anàlisi ràpida de dades ràpides, que actualment és la demanda del negoci. Així doncs, Kudu no és només un altre projecte d’ecosistema Hadoop, sinó que té el potencial de canviar el mercat. (Per obtenir més informació sobre Hadoop, consulteu els deu termes més importants que heu de conèixer i comprendre.)

Què és Kudu?

El Kudu és un sistema especial d’emmagatzematge que emmagatzema dades estructurades en forma de taules. Cada taula té un nombre de columnes predefinides. Cadascuna d'elles té una clau primària, que és en realitat un grup d'una o més columnes d'aquesta taula. Aquesta clau primària està feta per afegir una restricció i protegir les columnes, i també funciona com un índex, que permet actualitzar i suprimir fàcilment. Aquestes taules són una sèrie de subconjunts de dades anomenats tauletes.

Quin és l'estat actual de Kudus?

Kudu està realment ben desenvolupat i ja té moltes funcions. Tanmateix, encara necessitarà un cert poliment, que es pot fer amb més facilitat si els usuaris suggereixen i fan alguns canvis.

Kudu és de codi completament obert i té la llicència de programari Apache 2.0. També està pensat per ser enviat a Apache, de manera que es pugui desenvolupar com a projecte d’incubadora d’Apache. Això permetrà que el seu desenvolupament progressi encara més ràpid i augmenti la seva audiència. Passat un cert temps, el desenvolupament de Kudu es farà públicament i de manera transparent. Moltes empreses com AtScale, Xiaomi, Intel i Splice Machine s’han unit per contribuir al desenvolupament de Kudu. Kudu també compta amb una gran comunitat, on un gran nombre de públic ja proporciona els seus suggeriments i aportacions. Per tant, les persones que impulsen el desenvolupament de Kudu avancen.

Com pot Kudu complementar HDFS / HBase?

Kudu no vol dir que sigui un reemplaçament de HDFS / HBase. En realitat està dissenyat per donar suport tant a HBase com a HFDS i funcionen al seu costat per augmentar les seves característiques. Això es deu al fet que HBase i HDFS encara tenen moltes funcions que les fan més potents que Kudu en determinades màquines. En general, aquestes màquines obtindran més avantatges d’aquests sistemes.

Característiques del Framework Kudu

Les principals característiques del marc Kudu són les següents:

Exploracions extremadament ràpides de les columnes de la taula: els millors formats de dades com Parquet i ORCFile necessiten els millors procediments d’exploració, que Kudu tracta perfectament. Aquests formats necessiten exploracions ràpides que només es poden produir quan les dades de columnes estan codificades correctament.
Fiabilitat del rendiment: el marc de Kudu augmenta la fiabilitat general de Hadoop tancant moltes de les llacunes i les llacunes presents a Hadoop.
La integració fàcil amb Hadoop - Kudu es pot integrar fàcilment amb Hadoop i els seus diferents components per obtenir més eficiència.
Font completament oberta: Kudu és un sistema de codi obert amb llicència Apache 2.0. Té una àmplia comunitat de desenvolupadors de diferents empreses i procedències, que l’actualitzen regularment i proporcionen suggeriments de canvis.

Com pot Kudu canviar l’ecosistema d’Hadoop?

Kudu es va crear per adaptar-se a l'ecosistema d'Hadoop i millorar les seves característiques. També pot integrar-se amb alguns dels components clau d'Hadoop com MapReduce, HBase i HDFS. Les feines MapReduce poden proporcionar dades o agafar dades de les taules de Kudu. Aquestes funcions també es poden utilitzar a Spark. Una capa especial fa que alguns components de Spark com Spark SQL i DataFrame siguin accessibles a Kudu. Tot i que Kudu no s'ha desenvolupat tant per substituir aquestes funcions, es calcula que al cap d'uns anys, es desenvoluparà prou per fer-ho. Fins llavors, la integració entre Hadoop i Kudu és realment molt útil i pot omplir les principals llacunes de l'ecosistema d'Hadoop. (Per obtenir més informació sobre Apache Spark, vegeu com Apache Spark ajuda al desenvolupament ràpid d'aplicacions.)

Kudu es pot implementar en diversos llocs. A continuació, es mostren alguns exemples d'aquest tipus:

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Transmissió d’inputs en temps real a prop de temps: Kudu pot fer una tasca notable en els llocs on s’ha de rebre el més aviat possible. Un exemple d'aquest lloc és a les empreses, on inunden grans quantitats de dades dinàmiques procedents de diferents fonts i que han de ser disponibles ràpidament en temps real.
Aplicacions de sèries horàries amb diferents patrons d'accés: Kudu és perfecte per a aplicacions basades en sèries de temps, ja que és més senzill configurar taules i escanejar-les utilitzant-les. Un exemple d’aquest ús es troba als grans magatzems, on s’han de cercar i processar dades antigues ràpidament per predir la popularitat futura dels productes.
Sistemes existents: moltes empreses que obtenen dades de diverses fonts i les emmagatzemen en diferents estacions de treball se sentiran com a casa amb Kudu. Kudu és extremadament ràpid i pot integrar-se eficaçment amb Impala per processar dades de totes les màquines.
Modelat predictiu: els científics de dades que desitgen una bona plataforma de modelatge poden utilitzar Kudu. Kudu pot aprendre de cada conjunt de dades que s'hi alimenten. El científic pot executar i tornar a executar el model repetidament per veure què passa.

Conclusió

Tot i que Kudu encara està en fase de desenvolupament, té prou potencial per ser un bon complement per a components Hadoop estàndard com HDFS i HBase. Té prou potencial per canviar completament l’ecosistema Hadoop omplint tots els buits i afegint també algunes funcions més. També és molt ràpid i potent i pot ajudar a analitzar i emmagatzemar ràpidament taules grans de dades. Tanmateix, encara queda per fer alguns treballs de manera més eficient.