RDLY
.ru
Тренды
Статьи
Темы
Люди
Policy Gradient
6 статей
1ч 13м
🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic
Stanford Online · 09.03 · 561 просм.
1ч 03м
🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»
Stanford Online · 08.12.25 · 10,5 тыс. просм.
1ч 16м
Механика обучения моделей: лектор Стэнфорда о GRPO
Stanford Online · 08.07.25 · 32,3 тыс. просм.
45 мин
🌡 Стэнфорд: три способа научить ИИ принимать решения через оценку градиента
Stanford Online · 21.11.24 · 220 тыс. просм.
45 мин
🌡 Оптимизация стратегий в RL: три метода оценки градиента от Stanford Online
Stanford Online · 21.11.24 · 220 тыс. просм.
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24 · 11,4 тыс. просм.