Quines són algunes maneres claus d’automatitzar i optimitzar els processos de ciències de dades? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); P:

Content

P:

Quines són algunes maneres claus d’automatitzar i optimitzar els processos de ciències de dades?

R:

Els processos de ciències de dades en l'àmbit de l'aprenentatge automàtic i la IA es poden dividir en quatre fases diferents:

adquisició i exploració de dades,
construcció de models,
desplegament del model i
avaluació i perfeccionament en línia.

Segons la meva experiència, les fases més impedeixen són les fases d’adquisició i model de desplegament de dades en qualsevol procés de ciència de dades basat en l’aprenentatge automàtic, i hi ha dues maneres d’optimitzar-les:

1. Establiu una botiga de dades altament accessible.

En la majoria d’organitzacions, les dades no s’emmagatzemen en una ubicació central. Prenem només informació relacionada amb els clients. Teniu informació de contacte del client, atenció al client, informació del client i historial de navegació del client si el vostre negoci és una aplicació web. Totes aquestes dades es troben disperses de manera natural, ja que serveixen per a propòsits diferents. Poden residir en bases de dades diferents i algunes poden estar totalment estructurades i algunes desestructurades, i fins i tot es poden emmagatzemar com a fitxers simples.

Malauradament, la dispersió d’aquests conjunts de dades es limita molt al treball en ciències de dades ja que la base de tots els problemes de PNL, d’aprenentatge automàtic i d’IA. dades. Així, tenir totes aquestes dades en un sol lloc (el magatzem de dades) és primordial per accelerar el desenvolupament i el desplegament del model. Atès que es tracta d’una peça crucial per a tots els processos de ciències de dades, les organitzacions haurien de contractar enginyers qualificats de dades per ajudar-los a construir les seves bases de dades. Això pot iniciar-se fàcilment com a dipòsits de dades simples en una ubicació i lentament convertir-se en un dipòsit de dades ben pensat, completament documentat i consultable amb eines d’utilitat per exportar subconjunts de dades a diferents formats amb finalitats diferents.

2. Exposeu els vostres models com a servei per a una integració perfecta.

A més de permetre l’accés a les dades, també és important poder integrar els models desenvolupats pels científics de dades en el producte. Pot ser extremadament difícil integrar models desenvolupats a Python amb una aplicació web que funciona amb Ruby. A més, és possible que els models tinguin moltes dependències de dades que el producte no pot proporcionar.

Una manera d’afrontar-ho és configurar una infraestructura forta al voltant del vostre model i exposar prou funcionalitats necessàries pel vostre producte per tal d’utilitzar el model com a “servei web”. Per exemple, si la vostra aplicació necessita una classificació sentimental en les revisions del producte. Tot el que hauria de fer és invocar el servei web, proporcionant-ne el contingut rellevant i el servei retornaria la classificació de sentiments adequada que el producte pot utilitzar directament. D’aquesta manera, la integració es fa simplement en forma d’una trucada API. Desacoblar el model i el producte que l’utilitza fa que sigui fàcil que els nous productes que us presentin utilitzin també aquests models amb poc problema.

Ara, la configuració de la infraestructura al voltant del vostre model és tota una altra història i requereix una gran inversió inicial dels vostres equips d’enginyeria. Una vegada que la infraestructura hi hagi, només es tracta de construir models de manera que s’adapti a la infraestructura.