Catàlegs de dades i maduració del mercat d'aprenentatge automàtic

Content

L’imperatiu d’infonomia
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Què poden fer els catàlegs de dades per a empreses
Afegint l'aprenentatge automàtic
Com triar

Font: Nmedia / Dreamstime.com

Emportar:

El mercat MLDC està creixent, i les empreses que busquen aprofitar eficaçment les grans dades amb l'aprenentatge de màquines han de tenir coneixement dels noms més destacats del camp i de les seves classificacions individuals.

Aquesta és l'edat de les grans dades. Ens inunda la informació i les empreses troben un repte per gestionar i extreure’n el valor.

El flux de grans dades d'avui no només implica volum, varietat i velocitat, sinó també complexitat. Tal com ha identificat SAS a Historial de dades i consideracions actuals, això és un factor dels fluxos "des de diverses fonts, cosa que dificulta la connexió, la concordança, la neteja i la transformació de dades entre sistemes". (Voleu obtenir més informació sobre les dades de grans proporcions? Consulteu les dades (grans) Big Future.)

Trobar una visió valuosa no es tracta simplement de reunir tantes dades com sigui possible, sinó de trobar les dades adequades. És impossible treballar-ho tot amb processos manuals. És per això que cada cop són més les empreses que "es dirigeixen a catàlegs de dades per democratitzar l'accés a les dades, permetre que els coneixements de dades tribals puguin curar informació, aplicar polítiques de dades i activar totes les dades per al valor empresarial ràpidament".

Aquí és on entren a la imatge els catàlegs de dades (també coneguts com a catàlegs d'informació). Tal com es defineix aquí, permeten als "usuaris explorar les seves fonts de dades necessàries i comprendre les fonts de dades explorades i, alhora, ajuden les organitzacions a obtenir més valor de les seves inversions actuals". Una de les maneres de fer-ho és permetent un accés molt més gran a les dades entre diferents tipus d’usuaris que en poden fer ús o contribuir.

L’imperatiu d’infonomia

En assenyalar l’augment espectacular de la demanda de catàlegs de dades a finals del 2017, Gartner els va anomenar "el nou negre". Es van fer reconeguts com una solució econòmica ràpida "per inventariar i classificar les organitzacions cada vegada més distribuïdes i desorganitzades actius de dades i mapar les seves cadenes d'informació". La necessitat d'això ha sorgit a causa de l'augment de la "infonomia", que requereix aplicar la mateixa minuciositat al seguiment d'informació que es fa a la gestió d'altres actius empresarials. (Per obtenir més informació sobre les cadenes de subministrament, vegeu Com l'aprenentatge de màquines pot millorar l'eficiència de la cadena de subministrament.)

Gartners es llança amb The Forrester Wave ™: Machine Learning Data Catalogs, segon trimestre del 2018. Més de la meitat dels participants de l'enquesta d'aquest informe van dir que tenien previst construir la seva implementació del catàleg de dades. Probablement van ser motivats principalment pel fet que cadascun tenia almenys set llacs de dades en la seva organització. Segons explica Gartner en els catàlegs de dades, els catàlegs de dades són especialment útils per extreure "la con, el significat i el valor de les dades" que normalment es deixen en una forma no classificada en un llac de dades.

Forrester informa que més d'un terç dels responsables de dades i dades d'analítica tenien una xifra de 1.000TB o més de dades el 2017, una quantitat que només es va informar entre un 10 i un 14 per cent l'any anterior. La gestió de dades a aquesta escala és un repte creixent, o específicament, dos reptes:

"1) fusionar els processos comercials existents amb les dades d'origen per analitzar-les i implementar informació i 2) abastar, reunir, gestionar i governar les dades a mesura que creixen."

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

Què poden fer els catàlegs de dades per a empreses

Gartner identifica formes específiques en què els catàlegs de dades poden millorar el flux d'informació i la productivitat de les organitzacions:

Recopilació i comunicació de l'inventari d'informació actualitzat disponible per a l'organització.
Creació d’un glossari comú de termes empresarials que defineix la interpretació i el significat semàntics de les dades de les organitzacions, proporcionant així els mitjans per a la mediació i la resolució d’incoherències definitives.
Habilitar un entorn de col·laboració dinàmic i àgil que permeti als col·laboradors empresarials i informàtics comentar, documentar i compartir dades.
Proporcionant transparència en l'ús de les dades amb llinatge i anàlisi d'impactes.
Supervisar, auditar i rastrejar dades en suport de processos de govern de la informació.
Captura de metadades per millorar l'anàlisi interna d'ús i reutilització de dades, optimització de consultes i certificació de dades.
Conualitzar informació dins de l’ús del seu negoci capturant, comunicant i analitzant quines dades existeixen, d’on provenen, en quins consums s’utilitza, per què es necessita, com flueix entre processos i sistemes, qui és responsable d’ella, què significa? i quin valor té.

L’informe de Gartner afirma que l’obtenció de les dades s’identifiqui correctament i sigui accessible per a les persones clau de l’organització, no només per trobar la manera de “monetitzar els actius de les dades per obtenir resultats comercials digitals”, sinó per complir les regulacions, ja siguin de la indústria. específics com la Llei de portabilitat i rendició de comptes de l’assegurança mèdica (HIPAA) o de caràcter més general com el Reglament general de protecció de dades (GDPR).

Afegint l'aprenentatge automàtic

Però res és sense els seus inconvenients. En els catàlegs de dades, el problema ha estat el procés lent i tediós que ha comportat la creació manual de totes les metadades que cal implementar. Aquí és on entra el component d'aprenentatge de màquines.

Els catàlegs de dades que va analitzar Forrester s’anomenen MLDC, ja que aprofiten el poder de l’aprenentatge automàtic, un dels components de l’IA. Tal com va explicar un blog de Podium Data, això fa possible "construir un dipòsit persistent de metadades i després aplicar ML / AI per fer recopilació i exposar informació potencialment útil sobre els actius de dades subjacents".

Com triar

Per ajudar les organitzacions a valorar quines empreses haurien de seleccionar, Forrester va aplicar 29 punts d'avaluació als 12 primers MLDC. Identificava els líders d’aquest mercat com: IBM, Relito, Programari Unifi, Alation i Collibra. Els principals intèrprets que va trobar són Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics i Cloudera. Hortonworks es troba sol en el lloc de "contendent".

Tanmateix, no s'hauria de passar només pel rànquing general. L’informe desglossa els punts forts i febles particulars de cadascun. En conseqüència, si una característica particular, com la investigació i el desenvolupament, és de la màxima importància per a una organització, pot considerar que Hortonworks sigui igual a IBM i Colilbra per a aquest aspecte, perquè aquests tres comparteixen la puntuació màxima de cinc per a aquesta qualitat, que era dos punts millor que Alation i Coloudera i quatre punts millor que Cambridge Semantics.

Per tant, l'informe Forrester aconsella als que utilitzin el seu informe com a orientació per no assumir la companyia més ben classificada que és la millor opció per a tothom. Han de prestar molta atenció al desglossament de l'avaluació per trobar què compleix els seus requisits particulars.