Hadoop Analytics: La combinació de dades requereix un enfocament font-agnòstic

Autora: Laura McKinney
Data De La Creació: 1 Abril 2021
Data D’Actualització: 16 Ser Possible 2024
Anonim
Hadoop Analytics: La combinació de dades requereix un enfocament font-agnòstic - Tecnologia
Hadoop Analytics: La combinació de dades requereix un enfocament font-agnòstic - Tecnologia


Font: Agsandrew / Dreamstime.com

Emportar:

Els mètodes font-agnòstics són ideals per processar dades per a analítiques Hadoop.

Combinar fonts de dades a Hadoop és un negoci complex. Alguns dels motius d’això són:

  • Els scripts personalitzats i específics de la font que combinen fonts de dades són problemàtics.
  • La utilització d’eines d’integració de dades o de ciències de dades genera massa incertesa.
  • És impossible fer afegir dades de fonts externes.

Avui discutiré com es millora l’analítica Hadoop mitjançant tecnologies agnòstiques font que faciliten combinar fonts de dades internes i externes. A més de descriure el funcionament dels mètodes agnòstics font, també tractaré per què les analítiques Hadoop necessiten intel·ligència integrada i capacitats de transferència de coneixement, comprensió de les relacions i característiques de les dades i una arquitectura escalable i d’alt rendiment.



  • Mètodes font-agnòstics incloure un model de resolució d'entitat flexible, que permeti afegir noves fonts de dades mitjançant processos de ciència de dades repetibles estadísticament. Aquests processos aprofiten els algoritmes per obtenir informació a partir de les dades i analitzar-la per determinar el millor enfocament d'integració.
    Per molt que estiguin fragmentats o incomplets els registres de la font original, les tecnologies d’analítica Hadoop haurien de ser una font agnòstica i poder unificar dades sense canviar ni manipular les dades d’origen. Aquestes tecnologies també haurien de crear índexs d’entitats basats en el contingut de dades, i atributs sobre els individus i la manera d’existir al món. Per aconseguir-ho, han d'entendre el contingut, la configuració, l'estructura i la relació dels components.
  • Experiència integrada en ciències de dades i integració de dades permet netejar, normalitzar i correlacionar les dades amb un alt grau de precisió i precisió. Les eines i els informes de visualització ajuden els analistes a avaluar i aprendre de les dades i a realitzar l’ajust del sistema en funció del coneixement obtingut en diferents passos del procés.
  • Comprensió de les relacions entre entitats es tradueix en processos de resolució d'entitats més precisos. Com que les entitats del món real no són només la suma dels seus atributs, sinó també les seves connexions, el coneixement de relacions s’ha d’utilitzar per detectar quan els registres són els mateixos. Això és especialment important per manejar casos de cantonada i grans dades.
  • Caracterització de dades millora l’anàlisi, la resolució i l’enllaç de dades mitjançant la identificació i aportació d’informació dins de les fonts de dades. Pot ajudar a validar el contingut, la densitat i la distribució de dades a les columnes d'informació estructurada. La caracterització de dades també es pot utilitzar per identificar i extreure dades importants relacionades amb l'entitat (nom, adreça, data de naixement, etc.) de fonts no estructurades i semiestructurades per a la seva correlació amb fonts estructurades.
  • Arquitectura escalable i paral·lela realitza anàlisis ràpidament fins i tot quan suporta centenars de fonts de dades estructurades, semestructurades i no estructurades i desenes de milers de milions de registres.

Hadoop canvia la forma en què el món realitza analítiques. Quan s’afegeixen noves anàlisis font-agnòstiques als ecosistemes Hadoop, les organitzacions poden connectar els punts a moltes fonts de dades internes i externes i obtenir informació que abans no eren possibles.


Aquest article es va publicar originalment a Novetta.com. S'ha llegit aquí amb permís. Novetta conserva tots els drets d’autor.