5 desafiaments en analítica de dades grans que cal tenir en compte

Content

Manejar un volum enorme de dades en menys temps
Neteja i format de dades per obtenir una sortida significativa
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Representació visual de les dades
L'aplicació ha de ser escalable
Selecció d'eines o tecnologia adequades per a l'anàlisi de dades
Conclusió

Font: Nils Ackermann / Dreamstime.com

Emportar:

Les dades grans poden constituir un recurs inestimable per a les empreses, però molts no consideren els reptes que suposa la seva implementació i anàlisi.

Tot i que la recopilació i l’anàlisi de dades han estat durant unes dècades, durant els darrers anys l’analítica de grans dades ha agafat el món empresarial per tempesta. Tanmateix, sí que arriba amb certes limitacions. En aquest article, parlarem sobre els reptes que les empreses d'analítica de dades s'enfrontaran en un futur proper.

Com el seu nom indica, les dades grans són enormes quant a volum i complexitat empresarial. Ofereix diversos formats, com ara dades estructurades, dades semestructurades i dades no estructurades i d'una àmplia gamma de fonts de dades. L’analítica de dades grans és útil per a una visió ràpida i accionable. Com que l’anàlisi de dades grans es basa en diversos paràmetres i dimensions, es presenta amb certs reptes, entre ells:

Manejar un gran volum de dades en un temps limitat
Netejar les dades i formatar-les per obtenir la sortida significativa desitjada
Representació de les dades en format visual
Que l’aplicació sigui escalable
Selecció de la tecnologia / eines adequades per a l'anàlisi

Manejar un volum enorme de dades en menys temps

Manejar un gran volum de dades en un temps limitat és un repte important, donat que es creen diàriament més de 2,5 bytes de quintillions de dades. A més, ni tan sols podem anomenar totes les fonts a partir de les quals es creen les dades: les fonts de dades poden ser sensors, mitjans socials, dades basades en transaccions, dades mòbils o qualsevol altra quantitat de fonts.

Per prendre decisions de negocis crítics de manera efectiva, hem de tenir una infraestructura informàtica forta que ha de ser capaç de llegir les dades més ràpidament i de proporcionar informació en temps real. Llavors, veiem que el repte és com extreure la informació de les dades d’un enorme volum de manera eficaç i econòmica.

Si parlem de manejar dades complexes, la primera eina de grans dades que em ve al cap és Apache Hadoop. A Hadoop tenim MapReduce, que té la possibilitat de dividir l’aplicació en fragments més petits. Tot seguit, cada fragment s'executa en un sol node dins d'un clúster. Hadoop té moltes funcions útils i s’utilitza àmpliament, però no podem ignorar el fet que les organitzacions necessiten una solució concreta que ha de ser capaç de manejar una sèrie de dades tant estructurades com no estructurades, alhora que permet un temps mínim d’inactivitat. A més d’aquests, Hadoop té alguns reptes addicionals, entre ells:

Reptes relacionats amb la gestió de dades
Reptes relacionats amb la programació de llocs de treball
Reptes relacionats amb l’ús compartit de recursos
Reptes relacionats amb la gestió de clústers

L’IBM InfoSphere BigInsights, que es basa en Hadoop, té la capacitat de complir aquests requisits crítics empresarials. Al mateix temps, també té la capacitat de mantenir la compatibilitat.

Neteja i format de dades per obtenir una sortida significativa

La neteja de dades és una part integral de l’anàlisi de dades. De fet, es tracta de fer una tasca que necessita més temps netejar les dades que realitzar cap anàlisi estadística sobre aquesta. Mentre es fa una anàlisi estadística de dades, les dades han de passar pels cinc passos següents:

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Figura 1: Etapes de neteja i anàlisi de dades

A la figura anterior podem veure una visió general de les etapes d’anàlisi de dades. Cadascun dels quadres representa una etapa per la qual passen les dades. Els tres primers passos entren dins del mecanisme de neteja de dades, mentre que els dos últims formen part de l’anàlisi de dades.

Dades brutes: es tracta de les dades que provenen. En aquest estat hi podria haver tres problemes possibles:
- És possible que les dades no tinguin les capçaleres adequades.
- Les dades poden tenir tipus de dades incorrectes.
- Les dades poden contenir codificació de caràcters desconeguda o no desitjada.
Dades tècnicament correctes: una vegada que les dades en brut es modifiquen per eliminar les discrepàncies enumerades anteriorment, es diu que és "correcta tècnicament".
Dades coherents: en aquesta etapa, les dades estan preparades per exposar-se a qualsevol tipus d’anàlisi estadística i es poden utilitzar com a punt de partida per a l’anàlisi.
Resultats i resultats estadístics: després d’obtenir resultats estadístics, es poden emmagatzemar per a la seva reutilització. Aquests resultats també es poden formatar de manera que es puguin utilitzar per publicar diversos tipus d'informes.

Representació visual de les dades

És de vital importància representar les dades en un format ben estructurat, llegible i comprensible per a l’audiència. El fet de manejar les dades no estructurades i després representar-les en format visual pot ser un treball difícil al qual s’enfrontaran les organitzacions que implementen dades grans en un futur proper. Per satisfer aquesta necessitat, es poden utilitzar diferents tipus de gràfics o taules per representar les dades.

L'aplicació ha de ser escalable

Tenint en compte el volum creixent de dades dia a dia, el principal factor de rehabilitació de les organitzacions és el factor d’escalabilitat. Per tenir una aplicació escalable, preveiem els següents reptes mentre recopilem les dades:

Els serveis de dades es despleguen en diverses piles tecnològiques:
- Apache / PHP per al front end
- Utilització de llenguatges de programació (com Java o Scala) per interactuar amb la base de dades o el front end

Com que hi ha diverses capes (que consisteixen en diferents piles tecnològiques) entre la base de dades i el front end, el recorregut de dades requereix temps. Així doncs, quan l’aplicació intenta augmentar el rendiment, disminueix. Com a solució, l'arquitectura i la pila de tecnologia s'han de dissenyar adequadament per evitar problemes de rendiment i augmentar l'escalabilitat.

Hi hauria d’haver una latència mínima als serveis de dades de producció. Quan una aplicació augmenta, el temps de resposta a cada sol·licitud és un dels principals problemes. A mesura que augmenta el volum de dades, cal solucionar el problema de latència correctament mitjançant la implementació de bones pràctiques a l’àrea del servei de dades.

Selecció d'eines o tecnologia adequades per a l'anàlisi de dades

Independentment de l’enfocament que prenem per recollir i emmagatzemar les dades, si no disposem d’una eina adequada d’anàlisi, no serveix de res tenir aquestes coses al seu lloc. Hem de tenir molta cura al seleccionar eines per a l’anàlisi de dades. Un cop finalitzem les eines, no podem canviar fàcilment a una altra. Per tant, mentre seleccionem les eines per a l'anàlisi, hauríem de tenir en compte les opcions següents:

Volum de dades
Volum de transacció
Gestió i aplicacions de dades heretades

Conclusió

Es poden predir fàcilment els reptes esmentats aquí, però, qui sap quins altres reptes imprevistos poden plantejar-se? Quan es treballa amb dades grans, és bona idea anticipar-se als reptes i intentar planificar els problemes que puguin sorgir.