OpenAI меняет правила игры: мощные ИИ-модели теперь доступны бесплатно!

OpenAI меняет правила игры: мощные ИИ-модели теперь доступны бесплатно!

В мире искусственного интеллекта произошло событие, которое можно назвать настоящей сенсацией: компания OpenAI выпустила две новых языковых модели с открытым исходным кодом — gpt-oss-120b и gpt-oss-20b. Это первый случай за последние шесть лет, с момента выпуска GPT-2 в 2019 году, когда OpenAI делает доступными такие мощные модели для широкой общественности. Это не просто технический прорыв, а настоящий сдвиг в подходе к разработке и распространению ИИ.

Что такое gpt-oss-120b и gpt-oss-20b?

Эти модели — большие языковые модели (LLM), имеющие 117 миллиардов и 21 миллиард параметров соответственно. Параметры — это внутренние переменные, которые модель обучает во время тренировки, и их количество обычно определяет мощность модели. Благодаря архитектуре "смесь экспертов" (MoE), gpt-oss-120b активирует только 5,1 миллиарда параметров на токен, а gpt-oss-20b — 3,6 миллиарда. Это позволяет запускать gpt-oss-20b на потребительских устройствах с 16 ГБ памяти, а gpt-oss-120b — на GPU с 80 ГБ, таких как NVIDIA H100.

Модель Общее количество параметров Активные параметры на токен Требования к памяти
gpt-oss-120b 117 миллиардов 5,1 миллиарда 80 ГБ GPU
gpt-oss-20b 21 миллиард 3,6 миллиарда 16 ГБ RAM

Модели распространяются под лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и применять их в коммерческих проектах без юридических ограничений.

Технические детали и архитектура

Обе модели построены на архитектуре Transformer, которая является стандартом для современных языковых моделей. Они используют чередующиеся плотные и локально разреженные паттерны внимания, аналогичные тем, что применялись в GPT-3. Для обработки позиционной информации используется метод Rotary Positional Embedding (RoPE), а также поддерживается контекст длиной до 128 000 токенов — это позволяет обрабатывать большие объемы текста или длинные диалоги.

Данные для обучения состояли преимущественно из английских текстов, с акцентом на STEM (наука, технологии, инженерия, математика), программирование и общие знания. Токенизация выполнялась с помощью токенизатора o200k_harmony, который также открыт для использования. Модели были обучены с использованием передовых методов, включая обучение с подкреплением и техники, применяемые в самых продвинутых моделях OpenAI, таких как o3 и o4-mini.

Производительность и возможности

Модели демонстрируют впечатляющие результаты на международных тестах. gpt-oss-120b достигает производительности, близкой к o4-mini, и даже превосходит её в некоторых областях, таких как HealthBench (медицинские запросы) и AIME 2024 & 2025 (конкурсная математика). gpt-oss-20b сравнима с o3-mini и превосходит её в задачах, связанных с математикой и здоровьем.

Тест gpt-oss-120b gpt-oss-20b o4-mini o3-mini
MMLU 90,0 85,3 ~90 ~85
GPQA Diamond 80,1 71,5 - -
HealthBench Превосходит Превосходит - -
AIME 2024 Превосходит Превосходит - -

Обе модели поддерживают технологию "цепочка рассуждений" (CoT) с тремя уровнями (низкий, средний, высокий), что позволяет разработчикам настраивать глубину анализа в зависимости от задачи. Они также обладают мощными возможностями использования инструментов, таких как веб Pragmatic Play веб-поиск и выполнение кода на Python, а также поддерживают структурированные выходные данные для интеграции с другими системами.

Меры безопасности и этические соображения

Безопасность — приоритет для OpenAI, особенно для открытых моделей, которые могут быть модифицированы. Во время предобучения были отфильтрованы вредные данные, связанные с химическими, биологическими, радиологическими и ядерными (CBRN) угрозами. После обучения модели прошли дополнительную настройку с использованием методов надзорного обучения и обучения с подкреплением для соответствия стандартам безопасности. Также проводилось тестирование на устойчивость к вредоносному использованию (adversarial fine-tuning), результаты которого оценивались в рамках Preparedness Framework. Эти процессы были проверены независимыми экспертами, а подробности доступны в исследовательской статье и карточке модели.

OpenAI также запустила Red Teaming Challenge с призовым фондом в 500 000 долларов для выявления потенциальных проблем безопасности (подробности).

Доступность и доступность

Модели доступны для бесплатной загрузки на Hugging Face в формате MXFP4, что снижает требования к памяти. gpt-oss-120b работает на GPU с 80 ГБ, а gpt-oss-20b — на устройствах с 16 ГБ памяти, таких как современные ноутбуки. Они оптимизированы для оборудования NVIDIA, AMD, Cerebras и Groq. Microsoft предоставляет версии для Windows через ONNX Runtime.

Разработчики могут опробовать модели на открытой платформе и найти руководства по использованию и доработке на сайте OpenAI.

Почему открытые модели важны

Выпуск этих моделей с открытым исходным кодом — шаг к демократизации ИИ. Это позволяет разработчикам, исследователям и организациям по всему миру использовать передовые технологии без необходимости покупки лицензий или наличия дорогой инфраструктуры. Это способствует инновациям, созданию новых приложений и более прозрачной и безопасной экосистеме ИИ.

OpenAI считает, что открытые модели дополняют их проприетарные решения, предоставляя сообществу больше инструментов. Это также снижает барьеры для развивающихся рынков и небольших организаций, у которых нет бюджета на проприетарные модели.

Заключение

Выпуск gpt-oss-120b и gpt-oss-20b — знаковое событие для мира ИИ. Эти мощные и безопасные модели открывают новые возможности для разработчиков и исследователей. Будет интересно увидеть, какие инновации и приложения появятся благодаря этой инициативе.

Сноски

  1. Большие языковые модели (LLM): Модели ИИ, обученные на огромных объемах текста для понимания и генерации человеческого языка. Используются в чат-ботах, переводчиках и других приложениях.
  2. Смесь экспертов (MoE): Архитектура, где модель состоит из нескольких "экспертов", активирующихся выборочно для повышения эффективности.
  3. Архитектура Transformer: Нейронная сеть для обработки последовательных данных, таких как текст, с использованием механизмов самовнимания.
  4. Цепочка рассуждений (CoT): Метод, при котором модель показывает промежуточные шаги рассуждений для прозрачности.
  5. Использование инструментов: Возможность модели применять внешние инструменты, такие как веб-поиск или выполнение кода, для сложных задач.
  6. Adversarial Fine-Tuning: Тестирование модели на данных, имитирующих вредоносное использование, для повышения безопасности.
  7. Preparedness Framework: Руководство OpenAI для оценки и снижения рисков ИИ, особенно в плане безопасности.
Dmitriy Nyashkin

Dmitriy Nyashkin

Веб разработчик, промпт-инженер
Saint-Petersburg