Simulatore RL - Federico Biasutti

Apprendimento per rinforzo

Osserva il robot imparare il percorso ottimale.
Le frecce mostrano la policy appresa (la direzione migliore).

Episodio: 0

Ultimo punteggio: 0

Modalità esplorazione: 100%

Velocità:

Stato: In attesa...
Clicca 'Avvia addestramento'. L'agente blu esplorerà la griglia.

Come funziona: il robot esplora in modo casuale all'inizio. Quando raggiunge il target (zona verde), memorizza il percorso. Nel tempo, le frecce (Q-Values) creano una mappa e l'agente smette di esplorare per massimizzare l'efficienza.