Policy Gradient

6 статей

🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic

Stanford Online · 09.03 · 561 просм.

🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»

Stanford Online · 08.12.25 · 10,5 тыс. просм.

Механика обучения моделей: лектор Стэнфорда о GRPO

Stanford Online · 08.07.25 · 32,3 тыс. просм.

🌡 Стэнфорд: три способа научить ИИ принимать решения через оценку градиента

Stanford Online · 21.11.24 · 220 тыс. просм.

🌡 Оптимизация стратегий в RL: три метода оценки градиента от Stanford Online

Stanford Online · 21.11.24 · 220 тыс. просм.

🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online · 30.10.24 · 11,4 тыс. просм.