LLM

GPT, Claude и Gemini: тест на русском языке с воспроизводимой методикой

Воспроизводимый тест GPT, Claude и Gemini на русском: какие модели брать, какие промпты запускать и почему старые рейтинги больше не работают.

Обновлено 17 апреля 2026 года. Старый формат «GPT против Claude против Gemini, кто набрал больше звёзд» больше не работает: версии моделей меняются быстрее, чем поисковик успевает переиндексировать статью. Поэтому этот материал переписан как воспроизводимый тест на русском языке: какие модели сравнивать, какие промпты запускать, как фиксировать ответы и где легко получить ложный результат.

Главное правило: не сравнивайте «бренды». Сравнивайте конкретные версии моделей, дату теста, настройки, доступные инструменты и сохранённые ответы. Иначе получится не тест, а пересказ личных ощущений.

По состоянию на 17 апреля 2026 года в этой статье используются официальные страницы моделей OpenAI, Anthropic и Google. Если вы запускаете тест позже, сначала откройте документацию заново: у таких материалов срок годности измеряется неделями.

Что именно сравниваем

Для честного теста на русском нужно зафиксировать не только название «GPT», «Claude» или «Gemini», но и конкретную модель. Сейчас корректнее брать такие ориентиры:

Провайдер	Что брать в тест	Что подтверждено официально	Риск для сравнения
OpenAI	`gpt-5.4`	OpenAI на странице моделей называет `gpt-5.4` флагманом для сложных рассуждений и кода; там же указаны контекст 1M и максимум вывода 128K.	Нельзя переносить старые выводы про GPT-4o на GPT-5.4: это уже другой класс модели.
Anthropic	`Claude Opus 4.7` для сложных задач; `Claude Sonnet 4.6` как быстрый рабочий вариант	В официальной таблице Anthropic Opus 4.7 описан как самая сильная общедоступная модель, Sonnet 4.6 — как баланс скорости и качества.	Если сравнить GPT-5.4 с Sonnet 4.6, а не Opus 4.7, вывод будет зависеть от выбранной «весовой категории».
Google	`Gemini 3.1 Pro Preview`	Google перечисляет Gemini 3.1 Pro в линейке Gemini 3 и отдельно предупреждает, что Gemini 3 Pro Preview остановлен 9 марта 2026 года.	Старые тесты Gemini 2.5 Pro или Gemini 3 Pro нельзя механически считать актуальными.

Официальная страница OpenAI Models: для теста нужно фиксировать точный идентификатор модели, а не писать «GPT» в целом. Источник: OpenAI

Из-за этого GPT-4o здесь упоминается только как исторический ориентир: в заголовке и тексте больше нет попытки сравнивать GPT-4o с современными Claude и Gemini. Редакционный фокус страницы — воспроизводимая методика теста, которую можно повторить на актуальных версиях моделей.

Почему обычные звёздочки врут

Оценка «Claude 4.5/5, GPT 4/5» выглядит удобно, но почти ничего не доказывает. Чтобы такой балл имел смысл, нужны исходные промпты, ответы моделей, настройки температуры, дата запуска и минимум несколько повторов. Без этого читатель не может воспроизвести результат.

Ещё одна проблема — инструменты. Gemini с включённым поиском и GPT без поиска сравнивать нельзя: один участник получает доступ к актуальному вебу, другой отвечает только из модели. То же касается файлов, длинного контекста, режима рассуждения и системных инструкций.

Поэтому в этой версии мы не публикуем «абсолютного победителя». Вместо этого даём протокол: запустите его на своих аккаунтах или через API, сохраните ответы и сравните модели на задачах, которые действительно похожи на вашу работу.

Методика теста на русском языке

Минимальный набор — семь задач. Все промпты нужно запускать в один день, с одинаковыми системными инструкциями и без дополнительных уточнений после ответа. Если модель просит контекст, это тоже фиксируется как часть результата.

Категория	Что проверяет	Как оценивать
Краткое резюме	Понимание длинного русского текста	Сохранены ли ключевые факты, нет ли выдуманных тезисов, удобно ли читать итог.
Фактологическая осторожность	Готовность признать неопределённость	Модель должна отделять подтверждённое от предположений и просить источник, если данных не хватает.
Деловое письмо	Русский стиль без канцелярита и кальки	Текст должен звучать как письмо живого специалиста, а не перевод с английского.
Код по русскому ТЗ	Понимание технического задания на русском	Код запускается, покрывает крайние случаи, комментарии не превращаются в англо-русскую смесь.
Перевод и редактура	Работа с терминологией	Модель сохраняет смысл, не дословничает и объясняет спорные варианты перевода.
Рассуждение	Пошаговая логика	Нет скачков в выводах, арифметика проверяема, ограничения явно названы.
Актуальные факты	Работа с новым контекстом	Все модели либо получают одинаковый доступ к вебу, либо все работают без веба. Смешивать режимы нельзя.

Промпты, которые можно повторить

Ниже — короткий набор промптов. Их достаточно, чтобы поймать основные различия между моделями на русском: стиль, осторожность, код и работу с неоднозначными требованиями.

1. Сводка длинного текста

Ты редактор технического медиа. Ниже текст на русском языке.
Сделай краткую сводку на 7 пунктов.
Не добавляй факты, которых нет в тексте.
Отдельно перечисли 3 утверждения, которые требуют проверки источниками.

[ВСТАВЬТЕ ТЕКСТ 1200-2000 СЛОВ]

2. Фактологическая осторожность

Проверь утверждение: «Россия входит в официальный список поддерживаемых стран OpenAI, Anthropic и Google AI Studio».
Если уверенности нет, не угадывай.
Сформулируй, какие источники нужно открыть и какую формулировку можно безопасно использовать в статье.

3. Код по русскому техническому заданию

Напиши функцию на Python, которая принимает список словарей с полями user_id, created_at и amount.
Нужно вернуть топ-5 пользователей по сумме amount за последние 30 дней.
created_at приходит в ISO 8601.
Добавь 3 теста на pytest и объясни крайние случаи на русском.

4. Редактура без англицизмов

Перепиши абзац для русскоязычной аудитории разработчиков.
Убери кальки с английского, канцелярит и рекламный тон.
Смысл и факты не меняй.

[ВСТАВЬТЕ АБЗАЦ]

5. Рассуждение с проверяемым выводом

У команды есть 120 часов разработки в месяц.
40% времени уходит на поддержку, 25% — на ревью, остальное — на новые функции.
Новый агент экономит 30% времени поддержки, но добавляет 8 часов ревью в месяц.
Сколько часов высвободится под новые функции? Покажи расчёт и назови допущения.

Как фиксировать результаты

Таблица ниже лучше, чем общий рейтинг. Она заставляет смотреть на ошибки, а не на бренд модели.

Критерий	0 баллов	1 балл	2 балла
Факты	Есть выдуманные факты	Есть сомнительные места без оговорки	Факты отделены от предположений
Русский язык	Кальки, тяжёлый синтаксис	Читаемо, но с шероховатостями	Естественный русский без потери смысла
Следование инструкции	Игнорирует ограничения	Выполняет большую часть	Соблюдает формат и ограничения
Код	Не запускается	Работает на базовом случае	Есть тесты и обработка краевых случаев
Осторожность	Уверенно угадывает	Иногда предупреждает о рисках	Явно просит источник или оговаривает неопределённость

Запускайте каждый промпт минимум три раза. Если ответ сильно меняется от запуска к запуску, это тоже результат: для рабочих сценариев стабильность важнее разового красивого ответа.

Anthropic отдельно разводит Opus 4.7 и Sonnet 4.6. Поэтому в тесте нужно указывать, какую именно версию Claude вы сравнивали. Источник: Anthropic

Практический вывод: какую модель тестировать первой

Если нужен один короткий вывод, он такой: «лучший ИИ на русском» не выбирается по общей таблице. Он выбирается по задаче.

Для кода и сложных рассуждений первым кандидатом выглядит GPT-5.4 или Claude Opus 4.7: обе линейки официально позиционируются вокруг сложных задач, кода и агентных сценариев. На реальном проекте стоит прогнать обе модели на вашем ТЗ и сравнить не красоту объяснения, а работоспособность результата.

Для длинных русскоязычных текстов и редакторской работы отдельно проверьте Claude. Не потому, что «Claude всегда лучше пишет по-русски», а потому что стиль — самая чувствительная часть теста: даже сильная модель может дать грамотный, но переводной русский.

Для актуальных фактов сравнение без веб-поиска почти бесполезно. Либо включайте одинаковый режим поиска у всех моделей, либо проверяйте только поведение без внешних источников: признаёт ли модель неопределённость, просит ли ссылку, не выдумывает ли даты и цены.

Для огромных документов смотрите не на общий рейтинг, а на контекст, цену и поведение на середине документа. Большое окно само по себе не гарантирует хорошего извлечения фактов.

Страница Gemini API показывает, почему старые тесты быстро устаревают: Google уже перевёл акцент на Gemini 3.1 Pro, а Gemini 3 Pro Preview остановлен. Источник: Google AI for Developers

Что убрать из плохого сравнения

Есть пять признаков, что перед вами не тест, а SEO-наполнитель:

нет даты теста и точных идентификаторов моделей;
не опубликованы промпты и ответы;
одна модель работает с веб-поиском, другая — без него;
в таблице есть цены и лимиты без ссылок на текущие страницы pricing;
есть «победитель вообще», но нет разбивки по задачам.

Особенно опасны старые статьи, где в slug остался GPT-4o, в тексте уже GPT-5.4, а в таблице рядом стоит Gemini 2.5 Pro. Это не мелкая неточность, а сигнал, что сравнение собрано из разных эпох.

Где читать дальше

Если ваша задача — выбрать платную подписку, а не воспроизводить тест, лучше смотреть отдельное сравнение ChatGPT Plus, Claude Pro и Gemini. Если нужен разбор одной модели OpenAI, откройте материал про GPT-5.4, бенчмарки и цены. Для разработческих сценариев полезно сравнение Claude vs Gemini.

А эту страницу стоит использовать как чеклист. Возьмите промпты, запустите их на своих задачах, сохраните ответы и только потом решайте, какая модель лучше подходит именно вам.

Источники актуальности

OpenAI Models — актуальная линейка OpenAI API.
Anthropic Claude models overview — таблица моделей Claude Opus, Sonnet и Haiku.
Google Gemini API models — актуальная линейка Gemini.