Обучение с подкреплением на основе отзывов людей

Перейти к навигацииПерейти к поиску
Общий обзор обучения с подкреплением на основе отзывов людей

Обучение с подкреплением на основе отзывов (RLHF; также обучение с подкреплением на основе человеческих предпочтений) — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL)[1][2]. RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена[3][4][5].

Человеческая обратная связь собирается путём просьбы к людям ранжировать случаи поведения агента[6][7][8]. Затем эти рейтинги можно использовать для оценки результатов, например, с помощью рейтинговой системы Эло[2].

RLHF применялся к различным областям обработки естественного языка, таким как диалоговые агенты, автоматическое реферирование и понимание естественного языка[9][10]. Регулярное обучение с подкреплением, когда агенты учатся на своих собственных действиях на основе функции вознаграждения, трудно применить к задачам обработки естественного языка, потому что вознаграждение часто нелегко определить или измерить, особенно при решении сложных задач, связанных с человеческими ценностями или предпочтениями. RLHF может позволить языковым моделям давать ответы, соответствующие этим сложным значениям, генерировать более подробные ответы и отклонять вопросы, которые либо неуместны, либо выходят за рамки области знаний модели[11]. Некоторыми примерами языковых моделей, обученных с помощью RLHF, являются ChatGPT от OpenAI и его предшественник InstructGPT[7][12][13][14], а также Sparrow от DeepMind[15][16][17].

RLHF также применялся в других областях, таких как разработка ботов для видеоигр. Например, OpenAI и DeepMind обучили агентов играть в игры Atari на основе человеческих предпочтений[18][19]. Агенты продемонстрировали высокую производительность во многих протестированных средах, часто превосходя возможности человека[20].

Проблемы и ограничения

Одной из основных проблем RLHF является масштабируемость и стоимость обратной связи с человеком, которая может быть медленной и дорогой по сравнению с неконтролируемым обучением. Качество и согласованность обратной связи с людьми также могут варьироваться в зависимости от задачи, интерфейса и индивидуальных предпочтений людей. Даже когда человеческая обратная связь возможна, модели RLHF могут по-прежнему демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, или использовать лазейки в модели вознаграждения, что выявляет проблемы согласования и надёжности[21].

Примечания

  1. Ziegler, Daniel M. (2019). "Fine-Tuning Language Models from Human Preferences" (англ.). doi:10.48550/arXiv.1909.08593. {{cite journal}}: Cite journal требует |journal= ()
  2. 1 2 Lambert; Castricato, Louis; von Werra, Leandro; Havrilla, Alex Illustrating Reinforcement Learning from Human Feedback (RLHF) (англ.). huggingface.co. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
  3. MacGlashan, James (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70 (англ.). JMLR.org: 2285—2294. Архивировано 4 марта 2023. Дата обращения: 16 марта 2023.
  4. Warnell, Garrett (25 April 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 32 (1). doi:10.1609/aaai.v32i1.11485.
  5. Bai, Yuntao (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback" (англ.). doi:10.48550/arXiv.2204.05862. {{cite journal}}: Cite journal требует |journal= ()
  6. Ouyang, Long (31 October 2022). "Training language models to follow instructions with human feedback" (англ.). Архивировано 15 марта 2023. Дата обращения: 16 марта 2023. {{cite journal}}: Cite journal требует |journal= ()
  7. 1 2 Edwards. OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results (амер. англ.). Ars Technica (1 декабря 2022). Дата обращения: 4 марта 2023. Архивировано 15 марта 2023 года.
  8. Abhishek. Getting stakeholder engagement right in responsible AI (англ.). VentureBeat (5 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.
  9. Ouyang, Long (2022). "Training language models to follow instructions with human feedback" (англ.). doi:10.48550/arXiv.2203.02155. {{cite journal}}: Cite journal требует |journal= ()
  10. Nisan, Stiennon (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (англ.). 33. Архивировано 23 декабря 2022. Дата обращения: 16 марта 2023.
  11. Wiggers. Can AI really be protected from text-based attacks? (англ.). TechCrunch (24 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
  12. Farseev. Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat (англ.). Forbes. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.
  13. Heikkilä. How OpenAI is trying to make ChatGPT safer and less biased (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
  14. Douglas Heaven. ChatGPT is OpenAI’s latest fix for GPT-3. It’s slick but still spews nonsense (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 14 марта 2023 года.
  15. Glaese, Amelia (2022). "Improving alignment of dialogue agents via targeted human judgements" (англ.). doi:10.48550/arXiv.2209.14375. {{cite journal}}: Cite journal требует |journal= ()
  16. Why DeepMind isn’t deploying its new AI chatbot — and what it means for responsible AI (англ.). VentureBeat (23 сентября 2022). Дата обращения: 4 марта 2023. Архивировано 9 февраля 2023 года.
  17. Building safer dialogue agents (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 1 августа 2023 года.
  18. Learning from human preferences (англ.). openai.com. Дата обращения: 4 марта 2023. Архивировано 18 июня 2023 года.
  19. Learning through human feedback (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.
  20. Christiano, Paul F (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems (англ.). 30. Curran Associates, Inc. Архивировано 19 марта 2023. Дата обращения: 4 марта 2023.
  21. Christiano. Thoughts on the impact of RLHF research (англ.). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.