BLOOM — Википедия

BLOOM

BLOOM
Тип	языковая модель и большая языковая модель
Первый выпуск	2021
Лицензия	Responsible AI License^[вд]
Сайт	bigscience.huggingface.co (англ.) huggingface.co/bi…

BigScience Large Open-science Multilingual Language Model с открытым доступом ( BLOOM ^[1] ) — большая языковая модель на основе трансформера. Была создана более чем 1000 исследователями ИИ, чтобы предоставить бесплатную большую языковую модель для всех желающих. Обучена примерно по 176 миллиардам весов с марта по июль 2022 года, считается альтернативой OpenAI GPT-3. BLOOM использует архитектуру модели трансформатора только для декодера, модифицированную от Megatron-LM GPT-2 .

Проект BLOOM ^[2] был запущен соучредителем Hugging Face. Было задействовано шесть основных групп людей, в том числе команда BigScience HuggingFace, команда Microsoft DeepSpeed, команда NVIDIA Megatron-LM, команда IDRIS/GENCI, команда PyTorch и волонтеры из рабочей группы BigScience Engineering.

BLOOM обучалась на данных 46 естественных языков и 13 языков программирования. В общей сложности 1,6 терабайт предварительно обработанного текста было преобразовано в 350 миллиардов уникальных токенов в качестве обучающих наборов данных BLOOM.

Примечания

↑ BigScience Large Open-science Open-access Multilingual Language Model (неопр.). Дата обращения: 1 октября 2022. Архивировано 12 апреля 2023 года.
↑ The Technology Behind BLOOM Training (неопр.). Дата обращения: 1 октября 2022. Архивировано 4 апреля 2023 года.

Похожие исследовательские статьи

OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом.

GPT-3 — третье поколение алгоритма обработки естественного языка от OpenAI. На сентябрь 2020 года это самая крупная и продвинутая языковая модель в мире. Модель, по заявлению разработчиков, может быть использована для решения «любых задач на английском языке».

DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft, способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей.

LaMDA, что расшифровывается как Language Model for Dialogue Applications, представляет собой семейство разговорных нейронных языковых моделей, разработанных Google. Первое поколение было анонсировано во время презентации Google I/O 2021 года, а второе поколение было анонсировано на мероприятии следующего года. В июне 2022 года LaMDA привлекла всеобщее внимание, когда инженер Google Блейк Лемуан заявил, что чат-бот стал разумным. Научное сообщество в значительной степени отвергло утверждения Лемуана, хотя это привело к разговорам об эффективности Теста Тьюринга, который измеряет, может ли компьютер сойти за человека.

Hugging Face, Inc. — американская компания, разрабатывающая инструменты для создания приложений с использованием машинного обучения. Она наиболее известна своей библиотекой Transformers, созданной для приложений обработки естественного языка, и своей платформой, которая позволяет пользователям обмениваться моделями машинного обучения и наборами данных.

ChatGPT — чат-бот с генеративным искусственным интеллектом, разработанный компанией OpenAI и способный работать в диалоговом режиме, поддерживающий запросы на естественных языках. Система способна отвечать на вопросы, генерировать тексты на разных языках, включая русский, относящиеся к различным предметным областям. Важной особенностью является возможность генерации по запросу программ на различных языках программирования.

Языковáя модель — это распределение вероятностей по последовательностям слов. Для любой последовательности слов длины m языковая модель присваивает вероятность $\text{[math]}$ всей последовательности. Языковые модели генерируют вероятности путём обучения на корпусе текстов на одном или нескольких языках. Учитывая, что языки могут использоваться для выражения огромного множества верных предложений, языковое моделирование сталкивается с проблемой задания ненулевых вероятностей лингвистически верным последовательностям, которые могут никогда не встретиться в обучающих данных. Для преодоления этой проблемы было разработано несколько подходов к моделированию, таких как применение марковских цепей или использование нейронных архитектур, таких как рекуррентные нейронные сети или трансформеры.

Большая языковая модель — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач.

PaLM — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI. Исследователи также создали версии моделеи PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба.

Подсказка по цепочке рассуждений — метод улучшения способности к рассуждению больших языковых моделей (БЯМ) путём подсказки им сгенерировать серию промежуточных шагов, которые приводят к окончательному ответу на многоэтапную проблему. Впервые он был предложен для языковых моделей исследователями Google в 2022 году.

Техника подсказок — концепция искусственного интеллекта (ИИ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» или просто «обучения c подсказками». Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью, где изучается только представление подсказки с использованием таких методов, как «настройка префикса» или «настройка с подсказками».

Генеративный искусственный интеллект — это тип системы искусственного интеллекта (ИИ), способной генерировать текст, изображения или другие медиаданные в ответ на подсказки. Генеративный ИИ использует генеративные модели, такие как большие языковые модели, для статистической выборки новых данных на основе набора обучающих данных, который использовался для их создания.

Generative pre-trained transformer или GPT — это тип нейронных языковых моделей, впервые представленных компанией OpenAI, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

LLaMA — большая языковая модель (LLM), выпущенная Meta AI в феврале 2023 года. Были обучены модели различных размеров в диапазоне от 7 до 65 миллиардов весов. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами весов в большинстве тестов NLP превышает производительность гораздо более крупной модели GPT-3 и что самая большая модель может конкурировать с современными моделями, такими как PaLM и Chinchilla. В то время как самые мощные LLM как правило были доступны только через ограниченные API, Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. В течение недели после выпуска LLaMA её веса были выложены в открытый доступ на 4chan через BitTorrent.

GPT-J — языковая модель искусственного интеллекта с открытым исходным кодом, разработанная EleutherAI. GPT-J работает очень похоже на GPT-3 от OpenAI в различных zero-shot задачах и может даже превзойти его в задачах генерации кода. Новейшая версия GPT-J-6B представляет собой языковую модель, основанную на наборе данных под названием The Pile. Pile — это 825- гигабайтный набор данных языкового моделирования с открытым исходным кодом, который разделен на 22 меньших набора данных. GPT-J похож на ChatGPT по возможностям, хотя он не работает как чат-бот, а только как предсказатель текста. В марте 2023 года Databricks выпустила Dolly, лицензированную Apache модель следования инструкциям, основанную на GPT-J с тонкой настройкой из набора данных Stanford Alpaca.

Chinchilla AI — языковая модель, разработанная исследовательской группой DeepMind и выпущенная в марте 2022 года. Chinchilla AI — это большая языковая модель, которая, как утверждается, превосходит GPT-3.

Sparrow — чат-бот, разработанный исследовательской лабораторией искусственного интеллекта DeepMind, дочерней компанией Alphabet Inc. Он предназначен для того, чтобы правильно отвечать на вопросы пользователей, снижая при этом риск небезопасных и неуместных ответов/ Одним из мотивов создания Sparrow является решение проблемы языковых моделей, производящих неверные, предвзятые или потенциально вредные результаты. Sparrow обучается с использованием человеческих суждений, чтобы быть более «полезным, правильным и безвредным» по сравнению с базовыми предварительно обученными языковыми моделями. При разработке Sparrow участникам платного исследования предлагалось взаимодействовать со Sparrow, а также собирались их предпочтения для обучения модели полезности ответа.

OpenAssistant — помощник с открытым исходным кодом на основе искусственного интеллекта (ИИ), который понимает задачи, может взаимодействовать со сторонними системами и динамически извлекать информацию для этого. Проект разработан LAION и энтузиастами по всему миру. Одна из целей разработки включает свободный доступ к большим языковым моделям, которые можно запускать локально на потребительском оборудовании.

Large-scale Artificial Intelligence Open Network (LAION) — немецкая некоммерческая организация, заявившая о своей цели «сделать крупномасштабные модели машинного обучения, наборы данных и связанный с ними код доступными для широкой публики». Она наиболее известна тем, что выпустила ряд больших наборов данных изображений и подписей, извлеченных из Интернета, которые были использованы для обучения ряда известных моделей преобразования текста в изображение, включая Stable Diffusion и Imagen.

YandexGPT — нейросеть семейства GPT от компании «Яндекс», которая может создавать и перерабатывать тексты, предлагать новые идеи и учитывать контекст беседы с пользователем.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.