Aprenentatge de reforç vs. Aprenentatge de reforç profund: quina diferència hi ha?

Content

Què és l'aprenentatge de reforç?
Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida
Què és l'aprenentatge de reforç profund?

Emportar:

Vam acudir als experts i els vam demanar que responguin a les diferències importants entre l’aprenentatge de reforç i l’aprenentatge de reforç profund

Els algorismes d’aprenentatge de màquines poden facilitar la vida i el treball, alliberant-nos de les tasques redundants mentre treballem més ràpidament i de manera més intel·ligent que els equips sencers de persones. Tot i això, hi ha diferents tipus d’aprenentatge automàtic. Per exemple, hi ha aprenentatge de reforç i aprenentatge de reforç profund.

“Tot i que l’aprenentatge de reforç i l’aprenentatge de reforç profund són tècniques d’aprenentatge automàtic que aprenen de forma autònoma, hi ha algunes diferències”, segons el doctor Kiho Lim, professor adjunt d’informàtica de la Universitat William Paterson de Wayne, Nova Jersey. "L'aprenentatge de reforç és l'aprenentatge dinàmicament amb un mètode d'assaig i error per maximitzar el resultat, mentre que l'aprenentatge de reforç profund és aprendre dels coneixements existents i aplicar-lo a un nou conjunt de dades."

Però, què vol dir exactament això? Vam anar als experts i els vam demanar que aportessin molts exemples.

Què és l'aprenentatge de reforç?

Com diu Lim, l’aprenentatge de reforç és la pràctica d’aprendre per prova i error, i la pràctica. "En aquesta disciplina, un model aprèn en el seu desplegament guanyant-se incrementalment per una predicció correcta i penalitzat per prediccions incorrectes", segons Hunaid Hameed, un científic científic de dades de Data Science Dojo a Redmond, WA. (Llegir l'aprenentatge de reforç pot donar un bon gir dinàmic al màrqueting.)

"L'aprenentatge de reforç es sol veure en jocs de IA i millorar el joc amb el pas del temps."

Els tres components essencials en l’aprenentatge de reforç són un agent, l’acció i la recompensa. "L'aprenentatge de reforç s'adhereix a una metodologia específica i determina els millors mitjans per obtenir el millor resultat", segons el doctor Ankur Taly, responsable de ciències de dades del Fiddler Labs de Mountain View, CA. "És molt similar a l'estructura de com juguem a un videojoc, en què el personatge (agent) participa en una sèrie de proves (accions) per obtenir la puntuació més alta (recompensa)."

Tot i això, és un sistema autodidacta autònom. Mitjançant l’exemple de videojocs, Taly diu que les recompenses positives poden derivar d’augmentar la puntuació o punts i que les recompenses negatives poden resultar en córrer obstacles o fer moviments desfavorables.

Chris Nicholson, CEO de San Francisco, Skymind, basat en la CA, es basa en l'exemple de com els algorismes aprenen per prova i error. ”Imagineu-vos jugar a Super Mario Brothers per primera vegada i intentant esbrinar com guanyar: exploreu l’espai, t’agafes, saltes, toques una moneda, aterres en una tortuga i veus què passa ”.

Sense errors, sense estrès: la vostra guia pas a pas per crear programes que canvien la vida sense destruir la vida

No podeu millorar les vostres habilitats de programació quan ningú es preocupa per la qualitat del programari.

En aprendre les bones accions i les accions dolentes, el joc t’ensenya a comportar-te. “L’aprenentatge de reforç ho fa en qualsevol situació: videojocs, jocs de taula, simulacions de casos d’ús del món real.” De fet, Nicholson assegura que la seva organització utilitza aprenentatges de reforç i simulacions per ajudar a les empreses a descobrir el millor camí de decisió a través d’una situació complexa.

En l'aprenentatge de reforç, un agent pren diverses decisions més petites per assolir un objectiu més gran. Un altre exemple és ensenyar a un robot a caminar. "En lloc de dur indicacions de codificació per aixecar un peu, doblegar el genoll, posar-lo cap avall, etc., un enfocament d'aprenentatge de reforç pot tenir l'experiment del robot amb diferents seqüències de moviments i esbrinar quines combinacions tenen més èxit per aconseguir-lo. avança ", afirma Stephen Bailey, científic de dades i expert en eines d'analítica a Immuta a College Park, MD.

A part dels videojocs i la robòtica, hi ha altres exemples que poden ajudar a explicar com funciona l’aprenentatge de reforç. Brandon Haynie, científic principal de dades del carrer Babel de Washington, DC, ho compara amb un aprenentatge humà per anar amb bicicleta. "Si esteu estacionaris i aixequeu els peus sense pedalejar, una caiguda o penalització és imminent."

Tanmateix, si comenceu a pedalar, romandreu a la bici, recompensa, i aneu cap al següent estat.

"L'aprenentatge de reforç té aplicacions que abasten diversos sectors, incloent decisions financeres, química, fabricació i, per descomptat, robòtica", afirma Haynie.

Què és l'aprenentatge de reforç profund?

Tanmateix, és possible que les decisions siguin massa complexes per a l'enfocament d'aprenentatge reforçat. Haynie diu que pot ser aclaparador que l'algoritme aprengui de tots els estats i determini el camí de la recompensa. “Aquí és on l’aprenentatge de reforç profund pot ajudar: la part“ profunda ”es refereix a l’aplicació d’una xarxa neuronal per estimar els estats en lloc d’haver de mapar totes les solucions, creant un espai de solució més manejable en el procés de decisió.”

No és un concepte nou. Haynie diu que existeix des dels anys 70. “Però amb l’arribada d’informàtica barata i potent, els avantatges addicionals de les xarxes neuronals poden ajudar ara a abordar àrees per reduir la complexitat d’una solució”, explica. (Llegiu Quina diferència hi ha entre intel·ligència artificial i xarxes neuronals?)

Aleshores, com funciona? Segons Peter MacKenzie, responsable de l’equip de l’AI, Amèrica a Teradata, hi ha massa informació per emmagatzemar en taules i els mètodes tabulars requeririen que l’agent visiti totes les combinacions d’estats i accions.

Tot i això, l’aprenentatge de reforç profund substitueix els mètodes tabulars d’estimació dels valors d’estat amb l’aproximació de la funció. "L'aproximació de funcions no només elimina la necessitat d'emmagatzemar tots els parells d'estats i valors en una taula, sinó que permet a l'agent generalitzar el valor dels estats que no ha vist mai o té informació parcial sobre, mitjançant els valors d'estats similars", MacKenzie diu.

"Bona part dels avenços apassionants en l'aprenentatge de reforç profund han tingut lloc a causa de la forta capacitat de les xarxes neuronals de generalitzar-se a través d’enormes espais estatals.” I MacKenzie assenyala que l’aprenentatge de reforç profund s’ha utilitzat en programes que han batut alguns dels millors competidors humans. en jocs com Chess and Go, a més de ser molts dels avenços en robòtica. (Llegiu 7 dones líders en IA, aprenentatge automàtic i robòtica.)

Bailey hi concorda i afegeix: "A principis d'any, un agent de l'AI anomenat AlphaStar va vèncer el millor jugador StarCraft II del món, i això és especialment interessant perquè a diferència de jocs com Chess i Go, els jugadors de StarCraft no saben el que fa el seu rival". En canvi, diu que havien de fer una estratègia inicial i després adaptar-se a mesura que s’assabentava del que estava planejant el seu oponent.

Però, com és possible fins i tot? Si un model té una xarxa neuronal de més de cinc capes, Hameed diu que té la capacitat d’atendre dades d’alta dimensió. "A causa d'això, el model pot aprendre a identificar patrons per si mateix sense tenir un comissari d'enginyers humans i seleccionar les variables que haurien d'introduir-se en el model per aprendre", explica.

En escenaris oberts, realment podeu veure la bellesa de l'aprenentatge de reforç profund. Taly utilitza l'exemple de reservar una taula en un restaurant o fer una comanda per a un article: situacions en què l'agent ha de respondre a qualsevol entrada de l'altre extrem.

"L'aprenentatge de reforç profund es pot utilitzar per formar un agent de conversa directament des del senyal d'àudio o des de l'altre extrem", afirma. "Quan s'utilitza un senyal d'àudio, l'agent també pot aprendre a agafar indicis subtils a l'àudio com a pauses, entonació, etcètera, aquest és el poder de l'aprenentatge de reforç profund".

I continuen sorgint noves aplicacions d’aprenentatge de reforç profund. A l’hora de determinar la propera millor acció per contactar amb un client, MacKenzie assegura que “l’estat i les accions podrien incloure totes les combinacions de productes, ofertes i missatgeria a tots els diferents canals, amb cadascun dels quals personalitzats: redacció, imatges, colors, tipus de lletra”.

Un altre exemple és l’optimització de la cadena de subministrament, per exemple, l’entrega de productes peribles a tots els Estats Units “Els estats possibles inclouen la ubicació actual de tots els diferents tipus de transport, l’inventari a totes les plantes, magatzems i establiments minoristes i la previsió de demanda per a tots. les botigues ", diu MacKenzie.

"Utilitzar l'aprenentatge profund per representar l'estat i l'espai d'acció permet a l'agent prendre millors decisions logístiques que resultin en enviaments més puntuals a un cost inferior".