GPT-5.4 от OpenAI: миллион токенов, бенчмарки и цены

OpenAI за две недели марта выпустила три модели GPT-5.4. Разбираем, что изменилось в бенчмарках, ценах и возможностях.

GPT-5.4 от OpenAI: миллион токенов, бенчмарки и цены
GPT-5.4 Thinking в ChatGPT. Источник: OpenAI / TechCrunch

OpenAI 5 марта 2026 года выпустила GPT-5.4 — флагманскую языковую модель с контекстным окном в миллион токенов, встроенным управлением компьютером и механизмом «мышления вслух». Через 12 дней компания добавила Mini и Nano — компактные варианты для разработчиков с ценой от $0.20 за миллион входных токенов.

Что нового в GPT-5.4 Thinking

GPT-5.4 объединила три нововведения, которые раньше существовали только по отдельности.

Контекст в миллион токенов. API-версия модели обрабатывает до 1 000 000 токенов — примерно 750 000 слов или полноценная техническая документация крупного проекта. Для сравнения: GPT-5.2 поддерживала 200 000 токенов.

Мышление вслух. В ChatGPT модель показывает план решения задачи до генерации ответа. Пользователь видит структуру рассуждения и может скорректировать направление, не дожидаясь финального результата. OpenAI называет это «upfront plan» — впервые модель даёт вмешаться в процесс мышления на лету.

Управление компьютером. GPT-5.4 — первая модель общего назначения от OpenAI со встроенными возможностями computer use. Модель установила рекорды на бенчмарках OSWorld-Verified и WebArena Verified.

GPT-5.4 Thinking в ChatGPT: интерфейс показывает план рассуждения перед генерацией ответа
Интерфейс GPT-5.4 Thinking с планом рассуждения. Источник: OpenAI / aibase.com
💡
Механизм tool search в GPT-5.4 сокращает расход токенов на 47% в сценариях с большим числом инструментов — без потери точности.

Бенчмарки: цифры вместо обещаний

OpenAI опубликовала результаты по нескольким категориям. Главные показатели:

БенчмаркGPT-5.2GPT-5.4Прирост
BigLaw Bench (юридические задачи)91%
Финансовое моделирование68,4%87,3%+27,6%
SWE-Bench Pro (код)57,7%
ARC-AGI (абстрактное мышление)86,2%93,7%+8,7%
Фактические ошибки в утвержденияхбазовый−33%

Модель на 33% реже допускает фактические ошибки в отдельных утверждениях по сравнению с GPT-5.2. Общая доля ответов с ошибками снизилась на 18%.

В тесте на создание презентаций оценщики предпочли результаты GPT-5.4 в 68% случаев — из-за лучшей визуальной подачи и разнообразия макетов.

Сравнение результатов GPT-5.4 Thinking и предыдущих моделей на ключевых бенчмарках
Бенчмарки GPT-5.4 Thinking. Источник: OpenAI System Card

Mini и Nano: линейка для разработчиков

17 марта, через 12 дней после флагмана, OpenAI выпустила GPT-5.4 Mini и Nano — компактные модели для задач, где полная мощность GPT-5.4 избыточна.

МодельВход ($/1M токенов)Выход ($/1M токенов)Доступность
GPT-5.4$2.50API, ChatGPT, Codex
GPT-5.4 Mini$0.75$4.50API, ChatGPT, Codex
GPT-5.4 Nano$0.20$1.25Только API

Mini работает вдвое быстрее GPT-5 Mini при более высокой точности на бенчмарках кода и мультимодальных задач. Nano — самая дешёвая модель OpenAI: $52 хватает для обработки описаний 76 000 фотографий.

OpenAI рекомендует Nano для классификации, извлечения данных, ранжирования и субагентов в многоагентных системах. Nano доступен только через API — компания позиционирует модель как инфраструктурный инструмент, а не потребительский продукт.

Introducing GPT-5.4 mini and nano
OpenAI

Место GPT-5.4 в гонке моделей

GPT-5.4 — не первая модель с миллион-токенным контекстом. Anthropic запустила эту возможность в бета-режиме для Claude Opus 4.6 в феврале 2026 года. Google предлагает аналогичное окно в Gemini с конца 2025 года.

Но OpenAI впервые объединила миллион-токенный контекст, нативный computer use и интерактивное мышление в одной модели. GPT-5.4 — не лучшая по каждому отдельному параметру, но самая широкая по набору возможностей в одном API-вызове.

Для разработчиков это значит меньше интеграций: один endpoint вместо нескольких специализированных моделей.

«GPT-5.4 — первая модель общего назначения с нативными возможностями computer use.»
— OpenAI, анонс GPT-5.4, 5 марта 2026

Кому стоит обратить внимание

Подписчики ChatGPT Plus, Team и Pro получили GPT-5.4 Thinking 5 марта. Ключевое улучшение — коррекция рассуждений модели до завершения генерации. На практике это экономит время в анализе документов, написании кода и финансовом моделировании.

Разработчики получили три модели с разным соотношением цены и производительности. Nano по $0.20/1M токенов конкурирует с Gemini Flash-Lite от Google и открывает сценарии массовой обработки, где раньше использовались только open-source модели.

Компании могут загрузить в контекст GPT-5.4 целую базу знаний — миллион токенов покрывает техническую документацию проекта средней величины.

Ближайший вопрос — ответ Anthropic и Google. Claude Opus 4.6 — единственный конкурент с сопоставимым контекстом, но без встроенного computer use. Gemini имеет длинный контекст, но отстаёт в бенчмарках кода. Гонка за универсальность — в разгаре.

OpenAI launches GPT-5.4 with Pro and Thinking versions
TechCrunch

GPT-4o и GPT-4.5: архитектура и отличия

OpenAI в 2025 году расширила линейку GPT-4, представив несколько специализированных вариантов. GPT-4o («omni») стал флагманом с нативной мультимодальностью — единая архитектура обрабатывает текст, изображения и аудио без отдельных модальных компонентов. GPT-4.5 — промежуточная модель с улучшенным «emotional intelligence» и снижением галлюцинаций.

Сравнение моделей OpenAI 2025

МодельКонтекстМультимодальностьЦена (вход/выход)Скорость
GPT-4o128K токеновТекст + изображения + аудио$2.5/$10 за 1MБыстрая
GPT-4o mini128K токеновТекст + изображения$0.15/$0.6 за 1MОчень быстрая
GPT-4.5128K токеновТекст + изображения$75/$150 за 1MСредняя
o3200K токеновТекст + изображения$10/$40 за 1MМедленная
o3-mini200K токеновТекст$1.1/$4.4 за 1MБыстрая

Бенчмарки GPT-4o vs конкуренты

ТестGPT-4oClaude 3.5 SonnetGemini 1.5 ProLlama 4 Maverick
MMLU (знания)87.2%88.7%85.9%85.5%
HumanEval (код)90.2%93.7%86.8%77.1%
MATH (математика)76.6%78.3%67.7%61.2%
MMMU (мультимодальность)69.1%68.3%65.8%73.4%

GPT-4o в продакшене: что важно знать

Structured Outputs — функция гарантированного JSON-вывода по заданной схеме. Критична для production-приложений, где нужен стабильный формат ответа без дополнительного парсинга.

Function Calling — наиболее зрелая реализация среди всех LLM-провайдеров. Параллельный вызов функций, strict mode для надёжного парсинга. OpenAI API де-факто стандарт — большинство open source фреймворков (LangChain, LlamaIndex) ориентированы на его совместимость.

Realtime API — streaming аудио без конвертации Speech-to-Text. Latency ~300мс от голоса до голосового ответа. Используется для голосовых ботов без задержки.

Как выбрать модель OpenAI для конкретной задачи

Продакшен-API, нужна скорость и низкая цена → GPT-4o mini ($0.15/1M входящих токенов)
Сложные задачи, нужно максимальное качество → GPT-4o или o3-mini
Математика, программирование, science → o3 или o3-mini
Голосовой ассистент в реальном времени → GPT-4o Realtime API
Эмоциональный AI, клиентский сервис → GPT-4.5 (если бюджет позволяет)

Сравнение моделей OpenAI: GPT-4.5, o3, o3-mini

МодельТипMMLUAIME 2024Цена (in/out)Контекст
GPT-4.5Стандартная LLM88.7%36.7%$2.5/$10 per 1M128K
o3 (high)Reasoning91.6%96.7%$10/$40 per 1M200K
o3-mini (high)Reasoning (эффективный)86.9%87.3%$1.1/$4.4 per 1M200K
GPT-4oМультимодальная87.2%9.3%$2.5/$10 per 1M128K

GPT-4.5: что реально изменилось

  • EQ и sycophancy: по тестам OpenAI, GPT-4.5 на 40% реже соглашается с неправильными утверждениями пользователя, что важно для деловых применений
  • Следование инструкциям: улучшено в сложных системных промптах с множеством правил — IFEval 87.5% (GPT-4o: 83.6%)
  • Галлюцинации: SimpleQA точность 62.5% — лучший результат среди OpenAI-моделей (GPT-4o: 38.2%)
  • Не reasoning-модель: GPT-4.5 не умеет в extended thinking — для математики и кода лучше o3

o3 vs o3-mini: когда что использовать

  • o3 (high): максимальное качество reasoning — PhD-уровень физики, олимпийская математика, сложный многошаговый код. Дорого: $40 за 1M выходных токенов
  • o3-mini (high): 90% качества o3 при цене в 9× ниже. Стандартный выбор для production reasoning-задач в 2026
  • o3-mini (low/medium): для задач, где нужна скорость — latency в 2–3× меньше при небольшой потере качества

Ценообразование: практический расчёт

При обработке 1000 пользовательских запросов (в среднем 500 входящих + 500 выходящих токенов на запрос):

  • GPT-4.5: $0.25 + $0.50 = $0.75 на 1000 запросов
  • o3-mini (medium): ~$0.55 + $2.20 = $2.75 на 1000 запросов (reasoning токены не включены в выходные)
  • o3 (high): $5.00 + $20.00 = $25.00 на 1000 запросов
  • GPT-4o-mini: $0.075 + $0.15 = $0.225 на 1000 запросов — самый дешёвый вариант

GPT-5: что известно

OpenAI не анонсировала официальную дату выхода GPT-5 на момент марта 2026. По утечкам и публичным заявлениям Sam Altman:

  • GPT-5 объединит возможности стандартных моделей и reasoning в одной архитектуре
  • Нативная мультимодальность: текст, изображения, аудио, видео
  • Agent-first design: оптимизация для длинных многошаговых задач
  • Ориентировочный выход: H2 2026 (информация не подтверждена официально)

Читайте также:

Telegram-канал @toolarium