Chinchilla AI

Перейти к навигации Перейти к поиску

Chinchilla AI
Тип	большая языковая модель

Chinchilla AI — языковая модель, разработанная исследовательской группой DeepMind и выпущенная в марте 2022 года. Chinchilla AI — это большая языковая модель, которая, как утверждается, превосходит GPT-3^[1].

Она значительно упрощает использование, поскольку требует гораздо меньше вычислительной мощности для логического вывода и точной настройки. На основе обучения ранее использовавшихся языковых моделей было определено, что если удвоить размер модели, необходимо также иметь удвоенное количество обучающих токенов. Эта гипотеза была использована DeepMind для обучения Chinchilla AI. Подобно Gopher с точки зрения стоимости, Chinchilla AI имеет параметры 70B и в четыре раза больше данных^[1].

Chinchilla AI имеет среднюю точность 67,5 % в тесте MMLU (Измерение понимания языка в многозадачном режиме), что на 7 % выше, чем у Gopher. По состоянию на 12 января 2023 года Chinchilla AI всё ещё находится на стадии тестирования^[2].

Chinchilla AI способствует разработке эффективной парадигмы обучения для больших авторегрессивных языковых моделей с ограниченными вычислительными ресурсами. Команда Chinchilla рекомендует удваивать количество обучающих токенов для каждого удвоения размера модели, а это означает, что использование более крупных и качественных наборов обучающих данных может привести к лучшим результатам в последующих задачах^[3]^[4].

Примечания

↑ ¹ ² What Is Chinchilla AI: Chatbot Language Model Rival By Deepmind To GPT-3 - Dataconomy (неопр.) (12 января 2023). Дата обращения: 6 апреля 2023. Архивировано 26 марта 2023 года.
↑ Hendrycks, Dan, Measuring Massive Multitask Language Understanding, Архивировано 15 марта 2023, Дата обращения: 15 марта 2023
↑ Chaithali. Check Out This DeepMind's New Language Model, Chinchilla (70B Parameters), Which Significantly Outperforms Gopher (280B) and GPT-3 (175B) on a Large Range of Downstream Evaluation Tasks (неопр.) (9 апреля 2022). Дата обращения: 6 апреля 2023. Архивировано 27 марта 2023 года.
↑ Wali. DeepMind launches GPT-3 rival, Chinchilla (неопр.). Analytics India Magazine (12 апреля 2022). Дата обращения: 6 апреля 2023. Архивировано 26 марта 2023 года.

Ссылки

White paper

Похожие исследовательские статьи

Виртуальный собеседник, программа-собеседник, чат-бот — программа, которая выясняет потребности пользователей, а затем помогает удовлетворить их. Автоматическое общение с пользователем ведется с помощью текста или голоса. Чат бот ведет коммуникацию от лица компании или бренда с целью упростить онлайн-общение, используется как альтернатива переписке с живым оператором или звонку менеджеру компании.

Google DeepMind, ранее DeepMind Technologies, — британская компания, занимающаяся искусственным интеллектом. Основана в 2010 году в Лондоне под названием DeepMind Technologies. В 2014 году была приобретена Google.

OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом.

ONNX — открытая библиотека программного обеспечения для построения нейронных сетей глубокого обучения. С помощью ONNX ИИ-разработчики могут обмениваться моделями между различными инструментами и выбирать наилучшую комбинацию этих инструментов. ONNX разрабатывается и поддерживается совместно компаниями Microsoft, Facebook, Amazon и другими партнерами как проект с открытым исходным кодом.

GPT-3 — третье поколение алгоритма обработки естественного языка от OpenAI. На сентябрь 2020 года это самая крупная и продвинутая языковая модель в мире. Модель, по заявлению разработчиков, может быть использована для решения «любых задач на английском языке».

GitHub Copilot — инструмент с использованием искусственного интеллекта, совместно разработанный GitHub и OpenAI для помощи пользователям таких интегрированных сред разработки, как Visual Studio Code, Visual Studio, Neovim и JetBrains в автодополнении кода. Инструмент был впервые анонсирован 29 июня 2021 года и до 21 июня 2022 был доступен только в виде предварительной версии. Лучше всего он подходит для пользователей, создающих код на Python, JavaScript, TypeScript, Ruby и Go.

LaMDA, что расшифровывается как Language Model for Dialogue Applications, представляет собой семейство разговорных нейронных языковых моделей, разработанных Google. Первое поколение было анонсировано во время презентации Google I/O 2021 года, а второе поколение было анонсировано на мероприятии следующего года. В июне 2022 года LaMDA привлекла всеобщее внимание, когда инженер Google Блейк Лемуан заявил, что чат-бот стал разумным. Научное сообщество в значительной степени отвергло утверждения Лемуана, хотя это привело к разговорам об эффективности Теста Тьюринга, который измеряет, может ли компьютер сойти за человека.

ChatGPT — чат-бот с генеративным искусственным интеллектом, разработанный компанией OpenAI и способный работать в диалоговом режиме, поддерживающий запросы на естественных языках. Система способна отвечать на вопросы, генерировать тексты на разных языках, включая русский, относящиеся к различным предметным областям. Важной особенностью является возможность генерации по запросу программ на различных языках программирования.

Языковáя модель — это распределение вероятностей по последовательностям слов. Для любой последовательности слов длины m языковая модель присваивает вероятность $\text{[math]}$ всей последовательности. Языковые модели генерируют вероятности путём обучения на корпусе текстов на одном или нескольких языках. Учитывая, что языки могут использоваться для выражения огромного множества верных предложений, языковое моделирование сталкивается с проблемой задания ненулевых вероятностей лингвистически верным последовательностям, которые могут никогда не встретиться в обучающих данных. Для преодоления этой проблемы было разработано несколько подходов к моделированию, таких как применение марковских цепей или использование нейронных архитектур, таких как рекуррентные нейронные сети или трансформеры.

Большая языковая модель — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач.

Обучение с подкреплением на основе отзывов — метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением (RL). RLHF может улучшить надёжность и исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена.

PaLM — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI. Исследователи также создали версии моделеи PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба.

Подсказка по цепочке рассуждений — метод улучшения способности к рассуждению больших языковых моделей (БЯМ) путём подсказки им сгенерировать серию промежуточных шагов, которые приводят к окончательному ответу на многоэтапную проблему. Впервые он был предложен для языковых моделей исследователями Google в 2022 году.

Техника подсказок — концепция искусственного интеллекта (ИИ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» или просто «обучения c подсказками». Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью, где изучается только представление подсказки с использованием таких методов, как «настройка префикса» или «настройка с подсказками».

Генеративный искусственный интеллект — это тип системы искусственного интеллекта (ИИ), способной генерировать текст, изображения или другие медиаданные в ответ на подсказки. Генеративный ИИ использует генеративные модели, такие как большие языковые модели, для статистической выборки новых данных на основе набора обучающих данных, который использовался для их создания.

Generative pre-trained transformer или GPT — это тип нейронных языковых моделей, впервые представленных компанией OpenAI, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

LLaMA — большая языковая модель (LLM), выпущенная Meta AI в феврале 2023 года. Были обучены модели различных размеров в диапазоне от 7 до 65 миллиардов весов. Разработчики LLaMA сообщили, что производительность модели с 13 миллиардами весов в большинстве тестов NLP превышает производительность гораздо более крупной модели GPT-3 и что самая большая модель может конкурировать с современными моделями, такими как PaLM и Chinchilla. В то время как самые мощные LLM как правило были доступны только через ограниченные API, Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. В течение недели после выпуска LLaMA её веса были выложены в открытый доступ на 4chan через BitTorrent.

Sparrow — чат-бот, разработанный исследовательской лабораторией искусственного интеллекта DeepMind, дочерней компанией Alphabet Inc. Он предназначен для того, чтобы правильно отвечать на вопросы пользователей, снижая при этом риск небезопасных и неуместных ответов/ Одним из мотивов создания Sparrow является решение проблемы языковых моделей, производящих неверные, предвзятые или потенциально вредные результаты. Sparrow обучается с использованием человеческих суждений, чтобы быть более «полезным, правильным и безвредным» по сравнению с базовыми предварительно обученными языковыми моделями. При разработке Sparrow участникам платного исследования предлагалось взаимодействовать со Sparrow, а также собирались их предпочтения для обучения модели полезности ответа.

BigScience Large Open-science Multilingual Language Model с открытым доступом — большая языковая модель на основе трансформера. Была создана более чем 1000 исследователями ИИ, чтобы предоставить бесплатную большую языковую модель для всех желающих. Обучена примерно по 176 миллиардам весов с марта по июль 2022 года, считается альтернативой OpenAI GPT-3. BLOOM использует архитектуру модели трансформатора только для декодера, модифицированную от Megatron-LM GPT-2.

OpenAssistant — помощник с открытым исходным кодом на основе искусственного интеллекта (ИИ), который понимает задачи, может взаимодействовать со сторонними системами и динамически извлекать информацию для этого. Проект разработан LAION и энтузиастами по всему миру. Одна из целей разработки включает свободный доступ к большим языковым моделям, которые можно запускать локально на потребительском оборудовании.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.