El repte actual de Big Data prové de la varietat, el volum i la velocitat

Content

Tres Vs de big data
Abordar el problema de la varietat de dades
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

Emportar:

Massa departaments d’informàtica llancen tot el que tenen als problemes de volum i velocitat de les dades, oblidant d’abordar el problema fonamental de la varietat de dades.

El repte de gestionar i aprofitar les grans dades prové de tres elements, segons Doug Laney, vicepresident de la investigació de Gartner. Laney va assenyalar per primera vegada fa més d'una dècada que les dades grans representen un problema com aquest per a l'empresa perquè introdueix volum, velocitat i varietat difícils de gestionar. El problema és que molts departaments d’informàtica llancen tot el que tenen als problemes de volum i velocitat de les dades, oblidant d’abordar el problema fonamental de la varietat de dades.

Al 2001, Laney va escriure que "les empreses líders utilitzaran cada cop més un magatzem de dades centralitzat per definir un vocabulari empresarial comú que millori la col·laboració interna i externa". La qüestió d’aquest vocabulari –i la variabilitat que impedeix que les empreses el crein– segueix sent l’aspecte menys abordat del conundrum de grans dades. (Consulteu què han de dir altres experts. Consulteu els experts en dades grans que cal seguir).

Tres Vs de big data

Nombroses empreses han trobat mètodes per aprofitar l'augment del volum i la velocitat de les dades. , per exemple, poden analitzar enormes volums de dades. Per descomptat, sovint aquestes dades es presenten una i altra vegada dins dels mateixos paràmetres. Això va impulsar innovacions tecnològiques, com les bases de dades de columnes, que ara són àmpliament utilitzades per altres empreses que tenen tendes de dades similars iguals.

En termes de velocitat de doma, venedors com Splunk ajuden a les empreses a analitzar dades creades ràpidament mitjançant fitxers de registre que capturen diversos milers d’esdeveniments per segon. Aquesta anàlisi d'esdeveniments de gran volum està dirigida a casos d'ús de control de seguretat i de rendiment. Igual que amb el repte de volum de dades, el repte de velocitat s’ha abordat en gran mesura mitjançant tècniques d’indexació sofisticades i analítica de dades distribuïdes que permeten escalar la capacitat de processament amb una velocitat de dades més gran.

Quan es tracta de varietat, però, hi ha massa empreses que encara tenen un gran problema en el seu plantejament d’analítica de dades. Aquest problema es basa en tres factors: En primer lloc, a causa del creixement, les adquisicions i les innovacions tecnològiques que afegeixen sistemes nous al medi ambient, les empreses queden tancades en un entorn altament heterogeni i aquesta heterogeneïtat només augmenta amb el temps. Les empreses han de rastrejar una gran quantitat de sistemes de sistemes i gestionar desenes de milers de tipus de dades, així com les mateixes dades que es representen mitjançant diferents nomenclatures i formats.

En segon lloc, aquests sistemes i tipus de dades reporten, en molts casos, informació rellevant i informació que es pot filtrar de manera segura com a irrellevant per al problema que es tracta. Cal identificar informació eficaç de manera fiable.

La tercera dimensió del repte de la varietat és la constant variabilitat o canvi en l’entorn. S'actualitzen sistemes, s'introdueixen nous sistemes, s'afegeixen nous tipus de dades i s'introdueix una nova nomenclatura. Això restringeix encara més la nostra capacitat d’afrontar el repte de la varietat de dades. Això afegeix una capa addicional al repte de la varietat. (Per obtenir més informació, consulteu les dades grans: com es captura, trinxa i s'utilitza per prendre decisions empresarials.)

Abordar el problema de la varietat de dades

Per solucionar el problema de la varietat de dades, les empreses han de començar pel domini informàtic, ja que sovint representa tant els pitjors infractors com les pitjors víctimes del problema de la varietat. El primer pas és començar amb una definició completa o una taxonomia de tots els elements o actius informàtics. Això proporciona una línia de base o base per referir-se a qualsevol cosa en o sobre TI i permet a les empreses gestionar la creixent heterogeneïtat amb una taxonomia o terminologia coneguda.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

El següent pas és identificar les diverses maneres de representar el mateix objecte en diferents sistemes de registre. Això permet als professionals de les TI mirar el seu entorn heterogeni i filtrar i comprimir les dades en fragments rellevants i manejables.

Finalment, els gestors d’informàtica han d’adoptar un procés d’examen constant de l’entorn per a canvis com ara introduir-se nous tipus d’elements o una nova nomenclatura per referir-se al mateix element.

Amb aquests passos, les organitzacions informàtiques poden gestionar el problema de la varietat i obtenir informació profunda que han evitat històricament equips informàtics. D'altra banda, gestionar el problema de la varietat millora enormement la rendibilitat de la inversió en eines i tècniques que aborden els problemes de dades de volum i velocitat més tradicionals.