Apprendimento per rinforzo
Osserva il robot imparare il percorso ottimale.
Le frecce mostrano la policy appresa (la direzione migliore).
Episodio: 0
Ultimo punteggio: 0
Modalità esplorazione: 100%
Stato: In attesa...
Clicca 'Avvia addestramento'. L'agente blu esplorerà la griglia.
Come funziona: il robot esplora in modo casuale all'inizio. Quando raggiunge il target (zona verde), memorizza il percorso.
Nel tempo, le frecce (Q-Values) creano una mappa e l'agente smette di esplorare per massimizzare l'efficienza.