← Risorse

Apprendimento per rinforzo

Osserva il robot imparare il percorso ottimale.
Le frecce mostrano la policy appresa (la direzione migliore).

Episodio: 0
Ultimo punteggio: 0
Modalità esplorazione: 100%
Stato: In attesa...
Clicca 'Avvia addestramento'. L'agente blu esplorerà la griglia.
Come funziona: il robot esplora in modo casuale all'inizio. Quando raggiunge il target (zona verde), memorizza il percorso. Nel tempo, le frecce (Q-Values) creano una mappa e l'agente smette di esplorare per massimizzare l'efficienza.