алгоритм REINFORCE

3 статьи

🔄 Стэнфордский курс CS224R: математический вывод градиентов политики в RL

Stanford Online · 08.12.25 · 12,6 тыс. просм.

🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling

Stanford Online · 08.12.25 · 12,6 тыс. просм.

🔄 Градиент стратегии и алгоритм REINFORCE: от робототехники до ChatGPT

Stanford Online · 30.10.24 · 14,6 тыс. просм.