Aprenentatge de reforç

Content

Definició: què significa l'aprenentatge de reforç?
Una introducció a Microsoft Azure i al Microsoft Cloud | Durant aquesta guia, podreu conèixer què és la informàtica en núvol i com Microsoft Azure us pot ajudar a migrar i executar el vostre negoci des del núvol.
Techopedia explica l'aprenentatge de reforç

Definició: què significa l'aprenentatge de reforç?

L’aprenentatge de reforç, pel que fa a la intel·ligència artificial, és un tipus de programació dinàmica que forma algorismes mitjançant un sistema de recompensa i càstig.

Un algorisme d’aprenentatge de reforç, o agent, aprèn interactuant amb el seu entorn. L’agent rep recompenses realitzant correctament i penalitzacions per realitzar actuacions incorrectes. L’agent aprèn sense intervenció d’un humà maximitzant la seva recompensa i minimitzant la seva pena.

Una introducció a Microsoft Azure i al Microsoft Cloud | Durant aquesta guia, podreu conèixer què és la informàtica en núvol i com Microsoft Azure us pot ajudar a migrar i executar el vostre negoci des del núvol.

Techopedia explica l'aprenentatge de reforç

L’aprenentatge de reforç és un enfocament de l’aprenentatge automàtic inspirat en la psicologia conductista. És similar a com un nen aprèn a realitzar una nova tasca. L’aprenentatge de reforç contrasta amb altres enfocaments d’aprenentatge automàtic, ja que no se’ls explica explícitament a l’algorisme com s’ha de realitzar una tasca, sinó que funciona pel problema per si sol.

Com a agent, que podria ser un cotxe autodescapat o un programa que jugui escacs, interactua amb el seu entorn, rep un estat de recompensa segons el seu rendiment, com ara conduir a la destinació de forma segura o guanyar un joc. Per contra, l’agent rep una penalització per haver executat de forma incorrecta, com ara sortir de la carretera o ser escacat.

L’agent al llarg del temps pren decisions per maximitzar la seva recompensa i minimitzar la seva pena mitjançant una programació dinàmica. L’avantatge d’aquest enfocament de la intel·ligència artificial és que permet que un programa d’AI aprengui sense que un programador indiqui com ha d’executar la tasca un agent.