Улучшение агента на основе Q-Learning, торгующего stocks, путем добавления рекуррентности и формирования наград
Предлагаю вашему вниманию ещё один перевод моей новой статьи с медиума.
В прошлый раз (первая статья) (Habr) мы создали агента на технологии Q-Learning, который совершает сделки на имитированных и реальных биржевых временных рядах и пытались проверить, подходит ли эта область задач для обучения с подкреплением.
В этот раз мы добавим LSTM слой для учета временных зависимостей внутри траектории и сделаем инженерию наград (reward shaping) на основе презентаци