GPT-J — Википедия

GPT-J

GPT-J
Тип	большая языковая модель, открытое программное обеспечение, генеративный предобученный трансформер, авторегрессионная модель и foundation model^[вд]
Лицензия	Apache License 2.0
Сайт	6b.eleuther.ai (англ.)

GPT-J — языковая модель искусственного интеллекта с открытым исходным кодом, разработанная EleutherAI^[1]. GPT-J работает очень похоже на GPT-3 от OpenAI в различных zero-shot задачах и может даже превзойти его в задачах генерации кода^[2]. Новейшая версия GPT-J-6B представляет собой языковую модель, основанную на наборе данных под названием The Pile^[3]. Pile — это 825- гигабайтный набор данных языкового моделирования с открытым исходным кодом, который разделен на 22 меньших набора данных^[4]. GPT-J похож на ChatGPT по возможностям, хотя он не работает как чат-бот, а только как предсказатель текста^[5]. В марте 2023 года Databricks выпустила Dolly, лицензированную Apache модель следования инструкциям, основанную на GPT-J с тонкой настройкой из набора данных Stanford Alpaca^[6].

Примечания

↑ Demo. GPT-J | Discover AI use cases (англ.). gpt3demo.com. Дата обращения: 28 февраля 2023. Архивировано 28 февраля 2023 года.
↑ GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront (англ.). www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
↑ Wang, Ben, Table of contents, Архивировано 28 февраля 2023, Дата обращения: 28 февраля 2023
↑ The Pile (неопр.). pile.eleuther.ai. Дата обращения: 28 февраля 2023. Архивировано 28 февраля 2023 года.
↑ Mueller. How you can use GPT-J (англ.). Medium (25 января 2022). Дата обращения: 28 февраля 2023. Архивировано 28 февраля 2023 года.
↑ Conover; Hayes, Matt; Mathur, Ankit; Meng, Xiangrui; Xie, Jianwei Hello Dolly: Democratizing the magic of ChatGPT with open models (неопр.) (24 марта 2023). Дата обращения: 5 апреля 2023. Архивировано 5 апреля 2023 года.

Похожие исследовательские статьи

Bing — поисковая система, разработанная международной корпорацией Microsoft. Bing была представлена генеральным директором Microsoft Стивом Балмером. Ранее имела следующие наименования и адреса:

MSN Search (http://search.msn.com/) — с момента появления в 1998 году и до 11 сентября 2006 года;
Windows Live Search (http://search.live.com/) — до 21 марта 2007 года;
Live Search (http://www.live.com/) — до 1 июня 2009 года.

OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом.

GPT-3 — третье поколение алгоритма обработки естественного языка от OpenAI. На сентябрь 2020 года это самая крупная и продвинутая языковая модель в мире. Модель, по заявлению разработчиков, может быть использована для решения «любых задач на английском языке».

GitHub Copilot — инструмент с использованием искусственного интеллекта, совместно разработанный GitHub и OpenAI для помощи пользователям таких интегрированных сред разработки, как Visual Studio Code, Visual Studio, Neovim и JetBrains в автодополнении кода. Инструмент был впервые анонсирован 29 июня 2021 года и до 21 июня 2022 был доступен только в виде предварительной версии. Лучше всего он подходит для пользователей, создающих код на Python, JavaScript, TypeScript, Ruby и Go.

ChatGPT — чат-бот с генеративным искусственным интеллектом, разработанный компанией OpenAI и способный работать в диалоговом режиме, поддерживающий запросы на естественных языках. Система способна отвечать на вопросы, генерировать тексты на разных языках, включая русский, относящиеся к различным предметным областям. Важной особенностью является возможность генерации по запросу программ на различных языках программирования.

Языковáя модель — это распределение вероятностей по последовательностям слов. Для любой последовательности слов длины m языковая модель присваивает вероятность $\text{[math]}$ всей последовательности. Языковые модели генерируют вероятности путём обучения на корпусе текстов на одном или нескольких языках. Учитывая, что языки могут использоваться для выражения огромного множества верных предложений, языковое моделирование сталкивается с проблемой задания ненулевых вероятностей лингвистически верным последовательностям, которые могут никогда не встретиться в обучающих данных. Для преодоления этой проблемы было разработано несколько подходов к моделированию, таких как применение марковских цепей или использование нейронных архитектур, таких как рекуррентные нейронные сети или трансформеры.

GPT-4 — мультимодальная большая языковая модель, созданная OpenAI, четвёртая в серии GPT. Она была выпущена 14 марта 2023 года и доступна для пользователей ChatGPT Plus. Microsoft подтвердила, что версии Bing, использующие GPT, на самом деле использовали GPT-4 до его официального выпуска. В качестве трансформера GPT-4 была предварительно обучена прогнозировать следующий токен, а затем была доработана с помощью обучения с подкреплением на основе отзывов людей.

Большая языковая модель — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач.

Обучение с подкреплением на основе отзывов — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL). RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена.

PaLM — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI. Исследователи также создали версии моделеи PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба.

Техника подсказок — концепция искусственного интеллекта (ИИ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» или просто «обучения c подсказками». Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью, где изучается только представление подсказки с использованием таких методов, как «настройка префикса» или «настройка с подсказками».

Генеративный искусственный интеллект — это тип системы искусственного интеллекта (ИИ), способной генерировать текст, изображения или другие медиаданные в ответ на подсказки. Генеративный ИИ использует генеративные модели, такие как большие языковые модели, для статистической выборки новых данных на основе набора обучающих данных, который использовался для их создания.

Generative pre-trained transformer или GPT — это тип нейронных языковых моделей, впервые представленных компанией OpenAI, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

Poe — платформа чат-ботов с искусственным интеллектом, разработанная Quora и запущенная в декабре 2022 года. Позволяет пользователям задавать вопросы и получать ответы от ряда ботов ИИ, созданных на основе больших языковых моделей (LLM), в том числе от разработчика ChatGPT OpenAI и других компаний, таких как Anthropic.

LLaMA — большая языковая модель (LLM), выпущенная Meta AI в феврале 2023 года. Были обучены модели различных размеров в диапазоне от 7 до 65 миллиардов весов. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами весов в большинстве тестов NLP превышает производительность гораздо более крупной модели GPT-3 и что самая большая модель может конкурировать с современными моделями, такими как PaLM и Chinchilla. В то время как самые мощные LLM как правило были доступны только через ограниченные API, Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. В течение недели после выпуска LLaMA её веса были выложены в открытый доступ на 4chan через BitTorrent.

Sparrow — чат-бот, разработанный исследовательской лабораторией искусственного интеллекта DeepMind, дочерней компанией Alphabet Inc. Он предназначен для того, чтобы правильно отвечать на вопросы пользователей, снижая при этом риск небезопасных и неуместных ответов/ Одним из мотивов создания Sparrow является решение проблемы языковых моделей, производящих неверные, предвзятые или потенциально вредные результаты. Sparrow обучается с использованием человеческих суждений, чтобы быть более «полезным, правильным и безвредным» по сравнению с базовыми предварительно обученными языковыми моделями. При разработке Sparrow участникам платного исследования предлагалось взаимодействовать со Sparrow, а также собирались их предпочтения для обучения модели полезности ответа.

BookCorpus представляет собой набор данных, состоящий из текстов около 11 000 неопубликованных книг, извлеченных из Интернета. Это был основной корпус, использовавшийся для обучения начальной версии GPT OpenAI, он также использовался в качестве обучающих данных для других ранних больших языковых моделей, включая BERT от Google. Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в его состав, охватывают целый ряд жанров, включая романы, научную фантастику и фэнтези.

OpenAssistant — помощник с открытым исходным кодом на основе искусственного интеллекта (ИИ), который понимает задачи, может взаимодействовать со сторонними системами и динамически извлекать информацию для этого. Проект разработан LAION и энтузиастами по всему миру. Одна из целей разработки включает свободный доступ к большим языковым моделям, которые можно запускать локально на потребительском оборудовании.

Anthropic — американский стартап и общественно-полезная корпорация в сфере искусственного интеллекта (ИИ), основанная бывшими сотрудниками OpenAI.

GigaChat — это сервис на основе искусственного интеллекта, способный общаться с пользователями в режиме диалога, генерировать по запросу тексты и изображения и писать программный код. Данный чат-бот разработан Сбером и поддерживает русский и английский языки. GigaChat использует генеративный искусственный интеллект на базе больших языковых моделей.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.