Deep Q-Learning: Ein Überblick und Implementierung

Kategorien:

Updates

Freigegeben:

July 3, 2025

Inhaltsverzeichnis

Mindverse Studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Deep Q-Learning (DQL) ist ein modernes Verfahren im Bereich des maschinellen Lernens, das darauf abzielt, intelligente Agenten zu trainieren, um optimale Entscheidungen in komplexen Umgebungen zu treffen. Dieses Verfahren kombiniert die Techniken des Q-Learnings mit den leistungsfähigen Fähigkeiten neuronaler Netze. In diesem Artikel werden wir die technischen Details und die Funktionsweise von Deep Q-Learning im Detail erläutern.

### Grundkonzepte des Reinforcement Learning

Bevor wir ins Detail gehen, ist es wichtig, einige grundlegende Konzepte des Reinforcement Learning (RL) zu verstehen. RL ist ein Bereich des maschinellen Lernens, bei dem ein Agent durch Interaktion mit seiner Umgebung lernt, eine Sequenz von Aktionen zu wählen, um eine Belohnung zu maximieren. Die Umgebung wird durch Zustände (States) beschrieben, und der Agent kann durch seine Aktionen (Actions) von einem Zustand in einen anderen übergehen.

#### Markov-Entscheidungsprozesse (MDP)

Ein MDP wird durch eine Menge von Zuständen \(S\), eine Menge von Aktionen \(A\), eine Übergangsfunktion \(P\) und eine Belohnungsfunktion \(R\) definiert. Die Übergangsfunktion \(P(s'|s, a)\) gibt die Wahrscheinlichkeit an, von Zustand \(s\) nach Zustand \(s'\) zu gelangen, wenn Aktion \(a\) ausgeführt wird. Die Belohnungsfunktion \(R(s, a)\) gibt die unmittelbare Belohnung an, die der Agent für das Ausführen der Aktion \(a\) im Zustand \(s\) erhält.

#### Q-Learning

Q-Learning ist ein modellfreier RL-Algorithmus, der darauf abzielt, die optimale Q-Funktion zu erlernen. Die Q-Funktion \(Q(s, a)\) gibt den erwarteten kumulativen Belohnungswert an, den der Agent erhält, wenn er im Zustand \(s\) die Aktion \(a\) ausführt und danach der optimalen Strategie folgt. Die Q-Funktion wird iterativ aktualisiert, um die Bellman-Gleichung zu erfüllen:
\[ Q(s, a) \leftarrow Q(s, a) + \alpha [R(s, a) + \gamma \max_{a'} Q(s', a') - Q(s, a)] \]
Hierbei sind \( \alpha \) die Lernrate und \( \gamma \) der Diskontierungsfaktor.

### Deep Q-Learning

Deep Q-Learning erweitert das klassische Q-Learning, indem es ein neuronales Netz verwendet, um die Q-Funktion zu approximieren. Dies ermöglicht es, mit hochdimensionalen Zustandsräumen und kontinuierlichen Zuständen umzugehen, was mit tabellenbasierten Ansätzen nicht möglich wäre.

#### Neuronale Netzwerke zur Q-Funktionsapproximation

In DQL wird ein neuronales Netz verwendet, um die Q-Werte für jede mögliche Aktion in einem gegebenen Zustand zu berechnen. Der Netzwerkinput ist der aktuelle Zustand, und der Output sind die Q-Werte für jede mögliche Aktion. Das Netzwerk wird trainiert, indem es die Differenz zwischen den vorhergesagten Q-Werten und den Ziel-Q-Werten minimiert:
\[ \text{Loss} = \mathbb{E}[(R(s, a) + \gamma \max_{a'} Q(s', a'; \theta^-) - Q(s, a; \theta))^2] \]
Hierbei sind \( \theta \) die Gewichte des Q-Netzwerks und \( \theta^- \) die Gewichte des Ziel-Netzwerks.

#### Ziel-Netzwerk und Erfahrungsspeicher

Um die Stabilität des Trainings zu verbessern, wird im Deep Q-Learning ein separates Ziel-Netzwerk verwendet, dessen Gewichte periodisch aus den Gewichten des Q-Netzwerks aktualisiert werden. Dies verhindert, dass die Ziel-Q-Werte während des Trainings zu stark schwanken.

Ein weiterer wichtiger Bestandteil ist der Erfahrungsspeicher (Experience Replay). Hierbei werden die Erfahrungen des Agenten (Zustand, Aktion, Belohnung, neuer Zustand) in einem Speicher abgelegt und zufällig Mini-Batches zur Aktualisierung des Netzwerks ausgewählt. Dies reduziert die Korrelation zwischen aufeinanderfolgenden Erfahrungen und verbessert die Trainingsstabilität.

#### ε-Greedy-Strategie

Die ε-Greedy-Strategie wird verwendet, um das Dilemma zwischen Exploration (Erkundung neuer Aktionen) und Exploitation (Nutzung der erlernten Aktionen) zu lösen. Mit einer Wahrscheinlichkeit von \( \epsilon \) wählt der Agent eine zufällige Aktion (Exploration), und mit einer Wahrscheinlichkeit von \( 1 - \epsilon \) wählt er die Aktion, die den höchsten Q-Wert hat (Exploitation). Der Wert von \( \epsilon \) wird im Laufe der Zeit oft verringert, um anfangs mehr zu erkunden und später mehr zu nutzen.

### Implementierung von Deep Q-Learning

Um die Prinzipien von Deep Q-Learning praktisch zu veranschaulichen, betrachten wir eine Implementierung in Python unter Verwendung von Keras und OpenAI Gym.

#### Schritt 1: Installation der notwendigen Bibliotheken

Zunächst müssen die erforderlichen Bibliotheken installiert werden:
```python
!pip install keras-rl2 gym
```

#### Schritt 2: Initialisierung der Umgebung

Wir verwenden die CartPole-Umgebung aus dem OpenAI Gym:
```python
import gym
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.optimizers import Adam
from rl.agents.dqn import DQNAgent
from rl.policy import EpsGreedyQPolicy
from rl.memory import SequentialMemory

ENV_NAME = 'CartPole-v1'
env = gym.make(ENV_NAME)
np.random.seed(123)
env.seed(123)
nb_actions = env.action_space.n
```

#### Schritt 3: Aufbau des neuronalen Netzwerks

Als nächstes erstellen wir das neuronale Netzwerk, das die Q-Funktion approximiert:
```python
model = Sequential()
model.add(Flatten(input_shape=(1,) + env.observation_space.shape))
model.add(Dense(24))
model.add(Activation('relu'))
model.add(Dense(24))
model.add(Activation('relu'))
model.add(Dense(nb_actions))
model.add(Activation('linear'))
print(model.summary())
```

#### Schritt 4: Konfiguration und Training des DQN-Agenten

Wir konfigurieren den DQN-Agenten mit einer ε-Greedy-Strategie und einem Erfahrungsspeicher:
```python
policy = EpsGreedyQPolicy()
memory = SequentialMemory(limit=50000, window_length=1)
dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory, nb_steps_warmup=10,
target_model_update=1e-2, policy=policy)
dqn.compile(Adam(lr=1e-3), metrics=['mae'])
dqn.fit(env, nb_steps=5000, visualize=True, verbose=2)
```

#### Schritt 5: Testen des Agenten

Nach dem Training testen wir den Agenten:
```python
dqn.test(env, nb_episodes=5, visualize=True)
```

### Fazit

Deep Q-Learning ist eine leistungsfähige Methode, um Agenten in komplexen Umgebungen zu trainieren. Durch die Kombination von Q-Learning mit neuronalen Netzwerken wird es möglich, mit hochdimensionalen und kontinuierlichen Zustandsräumen umzugehen. Die Verwendung von Ziel-Netzwerken und Erfahrungsspeicher verbessert die Stabilität und Effizienz des Trainings. Diese Techniken haben es ermöglicht, bemerkenswerte Fortschritte im Bereich des maschinellen Lernens zu erzielen, insbesondere bei der Lösung von Aufgaben wie der Steuerung von Robotern und dem Spielen von Videospielen.