12 consells clau per aprendre ciències de dades

Autora: Laura McKinney
Data De La Creació: 3 Abril 2021
Data D’Actualització: 1 Juliol 2024
Anonim
12 consells clau per aprendre ciències de dades - Tecnologia
12 consells clau per aprendre ciències de dades - Tecnologia

Content


Font: Artinspiring / Dreamstime.com

Emportar:

Els científics de dades, òbviament, necessiten una forta capacitat de matemàtiques i de codificació, però la comunicació i altres habilitats suaus també són essencials per tenir èxit.

Data scientist és la millor feina per al 2019 a Amèrica a Glassdoor. Amb un salari base mitjà de 108.000 dòlars i un rang de satisfacció laboral de 4,3 sobre 5, a més d’un nombre just d’obertius previstos, això no és d’estranyar. La pregunta és: què cal fer per encaminar-se per obtenir aquest lloc de treball?

Per esbrinar-ho, vam buscar els consells que es donin per aquells que busquen iniciar-se en aquesta trajectòria professional. Molt es redueix en les capacitats difícils de codificació i matemàtiques. Però aquest càlcul fort només no ho va tallar. Els científics de dades amb èxit també han de ser capaços de parlar amb els empresaris sota els seus propis termes, cosa que demana les capacitats associades a les habilitats i al lideratge. (Per obtenir més informació sobre els deures d’un científic científic de dades, vegeu Funció: Data Scientist.)


Construir la Fundació Educativa: tres consells primaris

Drace Zhan, científic de dades de la NYC Data Science Academy, recalca la necessitat d’una fundació educativa que inclogui l’essencial de la capacitat de codificació i matemàtiques:

  1. R / Python + SQL. Si no teniu competències de codificació, necessiteu molta potència de xarxa i altres àrees per augmentar aquest dèficit. He vist científics de dades amb matemàtiques febles i poca experiència de domini, però sempre han estat capaços de codificar. Python és ideal, però R és una gran eina per endarrerir. El millor és tenir-lo als dos arsenal. SQL també és extremadament important per a un analista de dades.

  2. Fortes habilitats matemàtiques. Entendre molt bé alguns dels mètodes més utilitzats: models lineals generalitzats, arbre de decisió, mitjans de K i proves estadístiques és millor que tenir una imatge àmplia de diversos models o especialitzacions com RNN.

Són habilitats centrals per aprofitar, encara que hi ha alguns experts. Per exemple, una llista de KDnuggets inclou els components de codificació que Zhan ha esmentat i afegeix altres coses útils que cal conèixer en la part tècnica, com ara la plataforma Hadoop Apache Spark, visualització de dades, dades no estructurades, aprenentatge automàtic i AI.


Però, si obtenim una enquesta sobre les eines més utilitzades identificades per a la seva vida real mitjançant una enquesta de Kaggle, obtenim resultats diferents. Com es pot veure en el gràfic de les 15 millors opcions a continuació, Python, R i SQL aconsegueixen fàcilment les tres primeres, però el quart són els quaderns Jupyter, seguits de TensorFlow, Amazon Web Services, shell Unix, Tableau, C / C ++, NoSQL , MATLAB / Octave i Java, tots davant Hadoop i Spark. Una altra addició que pot sorprendre a la gent, és l'explotació de dades Excel de Microsoft.

Imatge cortesia de Kaggle

La llista KDnuggets també inclou un consell sobre l'educació formal. La majoria dels científics tenen dades avançades: el 46 per cent té doctorat i el 88 per cent tenen almenys un màster. Els títols universitaris que tenen són generalment dividits en àrees relacionades. Un terç són matemàtiques i estadístiques, la més popular per a aquesta carrera professional. El següent més popular és la titulació en informàtica, amb un 19 per cent i l’enginyeria, l’elecció del 16 per cent. Per descomptat, les eines tècniques pròpies de la ciència de dades sovint no s’estudien en els programes de grau, sinó en camps d’arrencada especialitzats o a través de cursos en línia.

Més que cursos: dos consells més

Hank Yun, ajudant de recerca del departament pulmonar de Weill Cornell Medicine i estudiant de la NYC Data Science Academy, aconsella als científics aspirants a les dades que planifiquin el que treballaran i que trobin un mentor. Ell va dir:

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

No cometeu l’error que vaig cometre dient-vos que coneixeu les dades de dades perquè vau fer un curs i heu rebut un certificat. És un bon començament, però quan comenceu a estudiar, teniu en compte un projecte. A continuació, busqueu un mentor al camp i comenceu un projecte de passió de seguida. Quan siguis fresc, no saps el que no saps, de manera que ajuda quan algú hi és per guiar-te cap a allò que és important per a tu i què no. No voldreu passar molt temps estudiant sense haver-hi res per demostrar.

Saber quina eina s'ha de treure de la caixa d'eines: consells per mantenir-se al capdavant de la corba

Tenint en compte la diferència en el rànquing d’eines de ciències de dades, alguns poden sentir-se desconcertats en què centrar-se. Celeste Fralick, científic principal de dades de la companyia de programari de seguretat McAfee, aborda la qüestió en un article del CIO que analitza les habilitats essencials per a un científic de dades i declara que “un científic de dades ha de mantenir-se al davant de la corba en la investigació, així com entendre quina tecnologia s’ha d’aplicar quan ”. Això vol dir no deixar-se atreure per la novetat“ sexy ”i la novetat, quan el problema real” requereix una mica més d’execució. "El fet de ser conscient del cost computacional per a l'ecosistema, la interpretabilitat, la latència, l'amplada de banda i altres condicions del límit del sistema, així com la maduresa del client, permet que el científic entengui quina tecnologia ha d'aplicar".

Habilitats suaus essencials: altres sis consells

El punt que planteja Fralick està relacionat amb les habilitats no tècniques que requereix el treball de científic de dades. És per això que la llista de KDnuggets inclou quatre: curiositat intel·lectual, treball en equip, habilitats comunicatives i coneixement empresarial. Zhan també va incloure habilitats bàsiques claus en els seus consells per a científics de dades, identificant "habilitats de comunicació" com KDnuggets, però utilitzant "expertesa en domini" en lloc de "visió empresarial". Es digui a qualsevol aplicació pràctica de la ciència de dades a la negocis. (Per obtenir més informació sobre les habilitats de comunicació, vegeu La importància de les habilitats de comunicació per a professionals tècnics.)

Olivia Parr-Rud va oferir el seu propi gir en això, afegint dues habilitats més suaus, amb un èmfasi en el paper de la creativitat, afirmant: "Crec que la ciència de dades és un art com una ciència", cosa que requereix aprofitar els punts forts de les dues cares del cervell. “Molta gent parla de la ciència de dades com una carrera que utilitza principalment el cervell esquerre. He trobat que per tenir èxit, els científics de dades han d’utilitzar tot el seu cervell ”.

Va explicar que avançar en el camp no només requereix competència tècnica, sinó creativitat i visió necessària per al lideratge:

La majoria de les tasques del cervell esquerre / lineals es poden automatitzar o proveir. Per oferir un avantatge competitiu com a científics de dades, hem de ser capaços de reconèixer patrons i sintetitzar grans quantitats d’informació mitjançant les dues cares del nostre cervell. I hem de ser pensadors innovadors. Molts dels millors resultats resulten de la integració del cervell esquerre i dret.

També va subratllar per què és essencial comunicar una visió clarament:

Com a científics de dades, el nostre objectiu és utilitzar dades per ajudar els nostres clients a créixer els seus beneficis. La majoria dels executius no entenen què fem ni com ho fem. Per tant, hem de pensar com a líders i comunicar les conclusions i recomanacions en un llenguatge que els nostres grups d’interès entenguin i confien.

Les dotzenes de dades

Els consells clau incorporen un nombre més gran d’eines, habilitats i capacitats tècniques, així com qualitats menys quantificables com l’aptitud per a la creativitat i el lideratge. En definitiva, no es tracta només d’un joc de números. Com la ciència de dades no es tracta només de crear models al buit, sinó d’aplicar aplicacions pràctiques per resoldre problemes de la vida real per a les empreses, aquells que triomfaran en el camp no només necessiten dominar la tecnologia, sinó conèixer el seu domini empresarial i comprendre les necessitats dels els diversos membres de l’equip que treballen.