RDLY
.ru
Тренды
Статьи
Темы
Люди
алгоритм REINFORCE
3 статьи
1ч 02м
🔄 Стэнфордский курс CS224R: математический вывод градиентов политики в RL
Stanford Online · 08.12.25 · 12,6 тыс. просм.
1ч 02м
🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling
Stanford Online · 08.12.25 · 12,6 тыс. просм.
1ч 08м
🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT
Stanford Online · 30.10.24 · 14,6 тыс. просм.