Делюсь своей болью о том, как я изучал нейросети и не очень преуспел.
Приятного просмотра :)
А что на счет системы наград?
Обычно берут нейронку и как раз выстраивают систему наград
И похоже что мало данных на вход было, по крайней мере то что описал в видео.
Например, действие для птички стоит баллов, то-есть чем больше прыгаешь тем хуже.
Пройденное расстояние это хорошо, поощряем.
А вот пройденные ворота - ещё лучше, тоесть птичке выгодно не пройти больше расстояние, а зайти в ворота
По данным входа, может нужно не только расстояние до препятствия а ещё и зазор.
вот хорошее видео для понимания
Вот о твоей теме =)
Спасибо!
Если хочется естественного и разнообразного поведения от агентов то можно вместо стейт-машины посмотреть в сторону Goal-Oriented Action Planning. Оно и попроще нейронок и дебажится легче
Обычно берут нейронку и как раз выстраивают систему наград
И похоже что мало данных на вход было, по крайней мере то что описал в видео.
Например, действие для птички стоит баллов, то-есть чем больше прыгаешь тем хуже.
Пройденное расстояние это хорошо, поощряем.
А вот пройденные ворота - ещё лучше, тоесть птичке выгодно не пройти больше расстояние, а зайти в ворота
По данным входа, может нужно не только расстояние до препятствия а ещё и зазор.
вот хорошее видео для понимания
Вот о твоей теме =)