Reinforcement Learning

Deutschsprachige Wikipedia - Die freie Enzyklopädie

Bestärkendes Lernen

Bestärkendes Lernen bzw. Verstärkendes Lernen (engl. reinforcement learning, aber auch approximate dynamic programming, neurodynamic programming und policy search) ist der Überbegriff für eine Reihe von Methoden des Maschinellen Lernens, bei denen ein Agent den Nutzen von Aktionsabfolgen in einer Welt bestimmt. Zu diesem Zweck benutzt Bestärkendes Lernen die Theorie der Markow-Entscheidungsprobleme (engl. Markov Decision Processes (MDP)). Konkret formuliert, steht dahinter der Versuch, an einen Agenten ausgeschüttete Belohnungen so über die vorangegangenen Aktionen zu verteilen, dass der Agent den Nutzen einer jeden Aktion kennt und ausnutzen kann.

Mehr unter Wikipedia.org...