7 passos per aprendre la mineria de dades i la ciència de dades

Autora: Eugene Taylor
Data De La Creació: 12 Agost 2021
Data D’Actualització: 22 Juny 2024
Anonim
7 passos per aprendre la mineria de dades i la ciència de dades - Tecnologia
7 passos per aprendre la mineria de dades i la ciència de dades - Tecnologia

Content


Font: Paul Fleet / Dreamstime.com

Emportar:

La ciència de dades s’aprèn millor fent-ho, però també hi ha una bona base d’estadístiques i d’aprenentatge automàtic.

Sovint, se’m demana com aprendre mineria de dades i ciències de dades. Aquí teniu el meu resum.

Podeu aprendre la mineria de dades i la ciència de dades, per tant, comenceu a analitzar les dades tan aviat com pugueu. Tanmateix, no us oblideu d’aprendre la teoria, ja que necessiteu una bona base d’estadística i d’aprenentatge automàtic per comprendre el que esteu fent i trobar veritables nuggets de valor en el soroll de les grans dades.

A continuació, es mostren set passos per aprendre la mineria de dades i la ciència de dades. Encara que estiguin numerades, podeu fer-les en paral·lel o en un ordre diferent.

  1. Idiomes: Apreneu R, Python i SQL
  2. Eines: aprendre a utilitzar eines de visualització i mineria de dades
  3. llibres: llegir llibres d’introducció per entendre els fonaments
  4. Educació: vegeu seminaris, feu cursos i considereu un certificat o una llicenciatura en ciències de dades (Llegiu-ne més a Ben Loricas Com es pot alimentar un científic científic de dades.)
  5. Dades: comproveu els recursos de dades disponibles i hi trobeu alguna cosa
  6. Competicions: Participa en competicions de mineria de dades
  7. Interactuar amb altres científics de dades, a través de xarxes socials, grups i reunions

En aquest article, faig servir la mineria de dades i la ciència de dades de forma intercanviable. Vegeu la meva presentació, visió general de la indústria d'Analytics, on contemplo l'evolució i la popularitat de diferents termes com estadístiques, descobriment de coneixement, mineria de dades, analítica predictiu, ciències de dades i dades grans.


1. Aprenentatge d'idiomes

Una enquesta recent de KDnuggets va trobar que els llenguatges més populars per a la mineria de dades són R, Python i SQL. Hi ha molts recursos per a cada un, per exemple:

  • Llibre electrònic electrònic gratuït sobre Data Science amb R
  • Com començar amb Python per a la ciència de dades
  • Python for Data Analysis: Eines àgils per a dades del món real
  • Un Python Indispensable: el Recurs de dades a la ciència de dades
  • W3 Escoles Aprenent SQL

2. Eines: Programari de Mineria de Dades, Ciències de Dades i Visualització

Hi ha moltes eines de mineria de dades per a tasques diferents, però el millor és aprendre a utilitzar una suite de mineria de dades que admet tot el procés d’anàlisi de dades. Podeu començar amb eines de codi obert (gratuïtes) com ara KNIME, RapidMiner i Weka.


Tanmateix, per a moltes feines d’analítica cal conèixer SAS, que és l’eina comercial líder i àmpliament utilitzada. Altres programes d’analítica i mineria de dades populars inclouen MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler i Rattle.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

La visualització és una part essencial de qualsevol anàlisi de dades. Apreneu a utilitzar Microsoft Excel (bo per a moltes tasques més senzilles), gràfics R, (especialment ggplot2) i també Tableau: un excel·lent paquet per a la visualització. Altres eines de visualització bones són TIBCO Spotfire i Miner3D.

3. llibres

Hi ha molts llibres de mineria de dades i ciències de dades disponibles, però podeu consultar-los:

  • Data Mining and Analysis: Concepts Fundamental and Algorithms, free download PDF (draft), de Mohammed Zaki and Wagner Meira Jr.
  • Mineria de dades: eines i tècniques d’aprenentatge de màquines pràctiques, d’Ian Witten, Eibe Frank i Mark Hall, dels autors de Weka, i utilitzant àmpliament Weka en exemples
  • The Elements of Statistical Learning, Data Mining, Inference and Prediction, de Trevor Hastie, Robert Tibshirani, Jerome Friedman. Una gran introducció per a l'orientació matemàtica
  • LIONbook: Aprenentatge i optimització intel·ligent, de Roberto Battiti i Mauro Brunato, disponibles lliurement a la web, capítol per capítol
  • Llibre de mines massives de dades, d’A. Rajaraman, J. Ullman
  • El llibre d’EstatSoft Electronic Statistics (gratuït), inclou molts temes sobre mineria de dades

4. Educació: seminaris, cursos, certificats i titulacions

Podeu començar a veure alguns dels molts seminaris i transmissions web gratuïtes sobre temes més recents en analítica, big data, mineria de dades i ciències de dades.

També hi ha molts cursos en línia, breus i llargs, molts d’ells gratuïts. (Consulteu el directori d’educació en línia de KDnuggets.)

Consulteu especialment aquests cursos:

  • Machine Learning, a Coursera, impartit per Andrew Ng
  • Aprenent de dades a edX, impartit pel professor Caltech Yaser Abu-Mostafa
  • Curs en línia obert de ciències de dades aplicades, de Syracuse iSchool
  • Mineria de dades amb Weka, curs en línia gratuït
  • Consulteu també diapositives en línia gratuïtes del meu curs de mineria de dades, un curs introductori semestral de mineria de dades

Finalment, considereu obtenir certificats en mineria de dades i ciències de dades o titulacions avançades, com ara un màster en ciències de dades.

5. Dades

Necessiteu dades per analitzar-ho: vegeu el directori de KDnuggets de conjunts de dades per a la mineria de dades, que inclou:

  • Llocs i portals de dades, governs, federals, estatals, municipals, locals i públics
  • API de dades, hubs, mercats, plataformes, portals i motors de cerca
  • Conjunts de dades públics gratuïts

6. Competicions

Un cop més, aprendràs millor fent-ho, així que participa en competicions de Kaggle. Comença amb competicions per a principiants, com predir la supervivència del Titanic mitjançant l'aprenentatge automàtic.

7. Interactuar: reunions, grups i xarxes socials

Podeu unir-vos a molts grups d’iguals. Consulteu els 30 millors grups de LinkedIn per a anàlisis, dades grans, mineria de dades i ciències de dades.

AnalyticBridge és una comunitat activa d’analítica i de ciències de dades.

Podeu assistir a algunes de les moltes reunions i conferències sobre anàlisis, dades grans, mineria de dades, ciències de dades i descobriment del coneixement.

A més, considereu la possibilitat d’incorporar-vos a ACM SIGKDD, que organitza la conferència anual de KDD, la conferència de recerca més important en el camp.

Aquest article està publicat a KDNuggets.com. S'ha utilitzat amb permís de l'autor.