Hi pot haver alguna vegada massa dades en big data?

Vídeo: 30 глупых вопросов Data Engineer [Карьера в IT]

Content

P:

R:

La resposta a la pregunta és un rotund SI. Hi ha absolutament massa dades en un gran projecte de dades.

Hi ha diverses maneres en què això pot succeir i diverses raons per les quals els professionals necessiten limitar i curar dades de qualsevol manera que obtingui resultats adequats. (Llegiu 10 grans mites sobre les dades grans).

En general, els experts parlen de diferenciar el "senyal" del "soroll" en un model. Dit d’una altra manera, en un mar de grans dades, les dades d’informació rellevants esdevenen difícils d’orientar. En alguns casos, estàs buscant una agulla en un paller.

Per exemple, suposem que una empresa està intentant utilitzar dades grans per generar informació específica sobre un segment d’una base de clients i les seves compres en un període de temps específic. (Llegiu què fan les dades grans?)

El fet d’aconseguir una quantitat enorme d’actius de dades pot produir una ingesta de dades aleatòries que no siguin rellevants, o fins i tot produir un biaix que esculli les dades en una direcció o en una altra.

També alenteix el procés de forma espectacular, ja que els sistemes informàtics han de lluitar amb conjunts de dades més grans.

En tants tipus diferents de projectes, és molt important per als enginyers de dades curar les dades per a conjunts de dades restringits i específics, en el cas anterior, que només seran estudiades les dades d’aquest segment de clients, només les dades per a aquest moment. el marc que s'està estudiant i un enfocament que permet eliminar identificadors addicionals o informació de fons que poden confondre les coses o alentir els sistemes. (Paper de lectura: Data Engineer.)

Per obtenir més informació, mirem com funciona això a la frontera de l'aprenentatge automàtic. (Llegiu l'aprenentatge automàtic 101.)

Els experts en aprenentatge automàtic parlen d’alguna cosa anomenada “overfitting” on un model excessivament complex comporta resultats menys efectius quan el programa d’aprenentatge automàtic es deixa anar amb les noves dades de producció.

L’excés d’acord es produeix quan un conjunt complex de punts de dades coincideixen massa bé amb un conjunt d’entrenament inicial i no permeten que el programa s’adapti fàcilment a les noves dades.

Ara bé, tècnicament, l’acompliment és causat no per l’existència de massa mostres de dades, sinó per la coronació de massa punts de dades. Però podríeu argumentar que tenir massa dades també pot ser un factor contribuent a aquest tipus de problemes. Fer front a la maledicció de la dimensionalitat implica algunes de les mateixes tècniques que es feien en els primers projectes de big data quan els professionals intentaven identificar el que alimentaven els sistemes informàtics.

El problema de fons és que les dades grans poden ser de gran ajuda per a les empreses o que poden esdevenir un repte important. Un aspecte d’això és si l’empresa té les dades adequades en joc. Els experts saben que no és convenient simplement descarregar tots els actius de les dades en una tremuja i aportar informació d'aquesta manera: en els nous sistemes de dades sofisticats i originaris del núvol, hi ha un esforç per controlar i gestionar i curar dades per obtenir una precisió més exacta i ús eficient dels recursos de dades.