OpenAI меняет правила игры: мощные ИИ-модели теперь доступны бесплатно!

В мире искусственного интеллекта произошло событие, которое можно назвать настоящей сенсацией: компания OpenAI выпустила две новых языковых модели с открытым исходным кодом — gpt-oss-120b и gpt-oss-20b. Это первый случай за последние шесть лет, с момента выпуска GPT-2 в 2019 году, когда OpenAI делает доступными такие мощные модели для широкой общественности. Это не просто технический прорыв, а настоящий сдвиг в подходе к разработке и распространению ИИ.
Что такое gpt-oss-120b и gpt-oss-20b?
Эти модели — большие языковые модели (LLM), имеющие 117 миллиардов и 21 миллиард параметров соответственно. Параметры — это внутренние переменные, которые модель обучает во время тренировки, и их количество обычно определяет мощность модели. Благодаря архитектуре "смесь экспертов" (MoE), gpt-oss-120b активирует только 5,1 миллиарда параметров на токен, а gpt-oss-20b — 3,6 миллиарда. Это позволяет запускать gpt-oss-20b на потребительских устройствах с 16 ГБ памяти, а gpt-oss-120b — на GPU с 80 ГБ, таких как NVIDIA H100.
Модель | Общее количество параметров | Активные параметры на токен | Требования к памяти |
---|---|---|---|
gpt-oss-120b | 117 миллиардов | 5,1 миллиарда | 80 ГБ GPU |
gpt-oss-20b | 21 миллиард | 3,6 миллиарда | 16 ГБ RAM |
Модели распространяются под лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и применять их в коммерческих проектах без юридических ограничений.
Технические детали и архитектура
Обе модели построены на архитектуре Transformer, которая является стандартом для современных языковых моделей. Они используют чередующиеся плотные и локально разреженные паттерны внимания, аналогичные тем, что применялись в GPT-3. Для обработки позиционной информации используется метод Rotary Positional Embedding (RoPE), а также поддерживается контекст длиной до 128 000 токенов — это позволяет обрабатывать большие объемы текста или длинные диалоги.
Данные для обучения состояли преимущественно из английских текстов, с акцентом на STEM (наука, технологии, инженерия, математика), программирование и общие знания. Токенизация выполнялась с помощью токенизатора o200k_harmony, который также открыт для использования. Модели были обучены с использованием передовых методов, включая обучение с подкреплением и техники, применяемые в самых продвинутых моделях OpenAI, таких как o3 и o4-mini.
Производительность и возможности
Модели демонстрируют впечатляющие результаты на международных тестах. gpt-oss-120b достигает производительности, близкой к o4-mini, и даже превосходит её в некоторых областях, таких как HealthBench (медицинские запросы) и AIME 2024 & 2025 (конкурсная математика). gpt-oss-20b сравнима с o3-mini и превосходит её в задачах, связанных с математикой и здоровьем.
Тест | gpt-oss-120b | gpt-oss-20b | o4-mini | o3-mini |
---|---|---|---|---|
MMLU | 90,0 | 85,3 | ~90 | ~85 |
GPQA Diamond | 80,1 | 71,5 | - | - |
HealthBench | Превосходит | Превосходит | - | - |
AIME 2024 | Превосходит | Превосходит | - | - |
Обе модели поддерживают технологию "цепочка рассуждений" (CoT) с тремя уровнями (низкий, средний, высокий), что позволяет разработчикам настраивать глубину анализа в зависимости от задачи. Они также обладают мощными возможностями использования инструментов, таких как веб Pragmatic Play веб-поиск и выполнение кода на Python, а также поддерживают структурированные выходные данные для интеграции с другими системами.
Меры безопасности и этические соображения
Безопасность — приоритет для OpenAI, особенно для открытых моделей, которые могут быть модифицированы. Во время предобучения были отфильтрованы вредные данные, связанные с химическими, биологическими, радиологическими и ядерными (CBRN) угрозами. После обучения модели прошли дополнительную настройку с использованием методов надзорного обучения и обучения с подкреплением для соответствия стандартам безопасности. Также проводилось тестирование на устойчивость к вредоносному использованию (adversarial fine-tuning), результаты которого оценивались в рамках Preparedness Framework. Эти процессы были проверены независимыми экспертами, а подробности доступны в исследовательской статье и карточке модели.
OpenAI также запустила Red Teaming Challenge с призовым фондом в 500 000 долларов для выявления потенциальных проблем безопасности (подробности).
Доступность и доступность
Модели доступны для бесплатной загрузки на Hugging Face в формате MXFP4, что снижает требования к памяти. gpt-oss-120b работает на GPU с 80 ГБ, а gpt-oss-20b — на устройствах с 16 ГБ памяти, таких как современные ноутбуки. Они оптимизированы для оборудования NVIDIA, AMD, Cerebras и Groq. Microsoft предоставляет версии для Windows через ONNX Runtime.
Разработчики могут опробовать модели на открытой платформе и найти руководства по использованию и доработке на сайте OpenAI.
Почему открытые модели важны
Выпуск этих моделей с открытым исходным кодом — шаг к демократизации ИИ. Это позволяет разработчикам, исследователям и организациям по всему миру использовать передовые технологии без необходимости покупки лицензий или наличия дорогой инфраструктуры. Это способствует инновациям, созданию новых приложений и более прозрачной и безопасной экосистеме ИИ.
OpenAI считает, что открытые модели дополняют их проприетарные решения, предоставляя сообществу больше инструментов. Это также снижает барьеры для развивающихся рынков и небольших организаций, у которых нет бюджета на проприетарные модели.
Заключение
Выпуск gpt-oss-120b и gpt-oss-20b — знаковое событие для мира ИИ. Эти мощные и безопасные модели открывают новые возможности для разработчиков и исследователей. Будет интересно увидеть, какие инновации и приложения появятся благодаря этой инициативе.
Сноски
- Большие языковые модели (LLM): Модели ИИ, обученные на огромных объемах текста для понимания и генерации человеческого языка. Используются в чат-ботах, переводчиках и других приложениях.
- Смесь экспертов (MoE): Архитектура, где модель состоит из нескольких "экспертов", активирующихся выборочно для повышения эффективности.
- Архитектура Transformer: Нейронная сеть для обработки последовательных данных, таких как текст, с использованием механизмов самовнимания.
- Цепочка рассуждений (CoT): Метод, при котором модель показывает промежуточные шаги рассуждений для прозрачности.
- Использование инструментов: Возможность модели применять внешние инструменты, такие как веб-поиск или выполнение кода, для сложных задач.
- Adversarial Fine-Tuning: Тестирование модели на данных, имитирующих вредоносное использование, для повышения безопасности.
- Preparedness Framework: Руководство OpenAI для оценки и снижения рисков ИИ, особенно в плане безопасности.
Комментарии ()