Per què Spark és la plataforma Big Data del futur

Content

Què és Apache Spark?
Per què la guspira és tan important a l’Hadoop
Què són les funcions úniques de les espurnes?
Per què Spark no és un reemplaçament d’Hadoop
Què pensen les empreses sobre Spark i Hadoop
Implementacions pràctiques
Conclusió

Font: Snake3d / Dreamstime.com

Emportar:

Apache Spark és una eina de codi obert per a processar dades de grans dimensions que s’arrosseguen a (i d’alguna manera, superen) Hadoop.

Apache Hadoop ha estat la base per a les aplicacions de dades grans des de fa molt temps i es considera la plataforma de dades bàsica per a totes les ofertes relacionades amb dades grans. Tanmateix, la base de dades i la computació a la memòria estan guanyant popularitat a causa del rendiment i dels resultats ràpids. Apache Spark és un nou marc que utilitza capacitats a la memòria per oferir un processament ràpid (gairebé 100 vegades més ràpid que Hadoop). Així doncs, el producte Spark s’utilitza cada cop més en un món de big data, i principalment per a un processament més ràpid.

Què és Apache Spark?

Apache Spark és un marc de codi obert per processar grans volums de dades (big data) amb rapidesa i simplicitat. És adequat per a aplicacions d’analítica basades en dades grans. La guspira es pot utilitzar amb un entorn Hadoop, autònom o al núvol. Es va desenvolupar a la Universitat de Califòrnia i després es va oferir a l'Apache Software Foundation. Per tant, pertany a la comunitat de codi obert i pot ser molt rendible, cosa que permet que els desenvolupadors aficionats treballin amb facilitat. (Per obtenir més informació sobre el codi obert de Hadoops, vegeu Quina és la influència del codi obert en l'ecosistema Apache Hadoop?)

El propòsit principal de Spark és que ofereix als desenvolupadors un marc d'aplicacions que funciona al voltant d'una estructura de dades centrada. Spark també és extremadament potent i té la capacitat innata de processar ràpidament quantitats massives de dades en un curt període de temps, oferint així un rendiment extremadament bo.Això fa que sigui molt més ràpid que el que es diu que és el seu competidor més proper, Hadoop.

Per què la guspira és tan important a l’Hadoop

Apache Spark sempre ha estat conegut per trepitjar Hadoop en diverses funcions, cosa que probablement explica per què continua sent tan important. Un dels principals motius d’això seria considerar la seva velocitat de processament. De fet, com s'ha dit anteriorment, Spark ofereix un processament aproximadament 100 vegades més ràpid que el MapReduce d'Hadoop per a la mateixa quantitat de dades. També utilitza menys recursos en comparació amb Hadoop, de manera que és rendible.

Un altre aspecte clau on Spark té la part superior és en termes de compatibilitat amb un gestor de recursos. Es coneix que Apache Spark funciona amb Hadoop, de la mateixa manera que MapReduce, però, actualment només és compatible amb Hadoop. Pel que fa a Apache Spark, però, pot funcionar amb altres administradors de recursos com YARN o Mesos. Els científics de dades solen mencionar-ho com una de les àrees més grans on Spark supera de franc a Hadoop.

Quan es tracta de la facilitat d’ús, Spark torna a ser molt millor que Hadoop. Spark té API per a diversos idiomes com Scala, Java i Python, a més de tenir els gustos de Spark SQL. És relativament senzill escriure funcions definides per l’usuari. També passa de tenir un mode interactiu per executar ordres. Hadoop, en canvi, està escrit en Java i s’ha guanyat la reputació de ser força difícil de programar, tot i que té eines que ajuden en el procés. (Per obtenir més informació sobre Spark, vegeu com Apache Spark ajuda al desenvolupament ràpid d'aplicacions.)

Què són les funcions úniques de les espurnes?

Apache Spark té algunes característiques úniques que la distingeixen realment de molts dels seus competidors en el sector del tractament de dades. Alguns d'aquests detalls es descriuen breument a continuació.

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Spark també té una capacitat innata de carregar informació necessària al seu nucli amb l'ajut dels seus algorismes d'aprenentatge automàtic. Això permet que sigui extremadament ràpid.

Apache Spark ofereix la capacitat de processar gràfics o fins i tot informació de naturalesa gràfica, permetent així l’anàlisi fàcil amb molta precisió.

Apache Spark té el MLib, que és un marc destinat a l'aprenentatge de màquines estructurat. També és predominantment més ràpid en implementació que Hadoop. MLib també és capaç de resoldre diversos problemes, com ara la lectura estadística, el mostreig de dades i les proves de premissa, per citar-ne alguns.

Per què Spark no és un reemplaçament d’Hadoop

Malgrat el fet que Spark tingui diversos aspectes en què trontolli les mans de Hadoop, hi ha diverses raons per les quals no es pot substituir realment Hadoop.

En primer lloc, Hadoop simplement ofereix un conjunt d’eines més gran en comparació amb Spark. També té diverses pràctiques que es reconeixen a la indústria. Apache Spark, encara, és relativament jove al domini i necessitarà un cert temps per estar al dia de Hadoop.

El MapReduce d’Hadoop també ha establert certs estàndards del sector a l’hora d’executar operacions de ple rendiment. D'altra banda, encara es creu que Spark no està del tot preparat per funcionar amb una fiabilitat completa. Sovint, les organitzacions que utilitzen Spark han d’afinar-lo bé, per tal de preparar-lo per al seu conjunt de requisits.

També és més fàcil de configurar el MapReduce d’Hadoop, que té més temps que Spark. No és el cas de Spark, tot i que, tenint en compte que ofereix una plataforma completament nova que no ha provat els pedaços.

Què pensen les empreses sobre Spark i Hadoop

Moltes empreses ja han començat a utilitzar Spark per a les seves necessitats de processament de dades, però la història no s’acaba aquí. Segurament té diversos aspectes forts que la converteixen en una plataforma de processament de dades sorprenent. Tanmateix, també arriba amb la bona part dels inconvenients que necessiten solucionar.

És una idea del sector que Apache Spark està aquí per quedar-se i fins i tot és possiblement el futur per a les necessitats de tractament de dades. Tot i això, encara ha de sotmetre’s a molts treballs de desenvolupament i politització que li permetran aprofitar de veritat el seu potencial.

Implementacions pràctiques

Apache Spark ha estat i continua sent treballada per nombroses empreses que s’ajusten als seus requisits de processament de dades. Una de les implementacions amb més èxit la va dur a terme Shopify, que buscava seleccionar botigues elegibles per a col·laboracions empresarials. Tanmateix, el seu magatzem de dades no tenia temps de voler entendre els productes que venien els seus clients. Amb l'ajuda de Spark, l'empresa va poder processar diversos milions de registres de dades i després processar 67 milions de registres en pocs minuts. També va determinar quines tendes eren elegibles.

Utilitzant Spark, Pinterest és capaç d’identificar les tendències en desenvolupament i després l’utilitza per entendre el comportament dels usuaris. A més, permet obtenir un millor valor a la comunitat Pinterest. TripAdvisor fa servir també Spark, un dels llocs més importants d’informació de viatges del món per agilitzar les seves recomanacions als visitants.

Conclusió

No es pot dubtar de la capacitat de Apache Spark, fins i tot actualment, i del conjunt únic de funcions que aporta a la taula. La seva potència i velocitat de processament, juntament amb la seva compatibilitat, marquen el to de diverses coses en el futur. Tanmateix, també té diverses àrees en què ha de millorar, si és que realitza tot el seu potencial. Encara que Hadoop continua regulant el planter actualment, Apache Spark té un futur brillant per davant i és considerat per molts com la futura plataforma per als requeriments de processament de dades.