LLM

GPT-4o vs Claude 3.5 vs Gemini: тест на русском

Независимое сравнение GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro на задачах на русском языке — код, анализ, перевод.

Три модели претендуют на звание лучшей универсальной LLM: GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google. Международные бенчмарки — MMLU, HumanEval, MATH — дают разные расклады в зависимости от задачи. Но для русскоязычных пользователей критичны другие параметры: качество русского языка, понимание культурного контекста, работа с кириллицей в коде. Мы провели серию тестов, чтобы определить, какая модель лучше справляется с задачами на русском.

Методология

Каждую модель тестировали через API с идентичными промптами. Температура: 0.3 для фактических задач, 0.7 для творческих. Пять категорий: перевод, анализ текста, генерация кода, рассуждения и фактология. По три задачи в каждой категории. Оценка — экспертная, по шкале 1–5.

Перевод

Тест: перевод технического блог-поста с английского на русский (800 слов), маркетингового текста и юридического абзаца.

Claude 3.5 Sonnet: 4.5/5. Лучший русский язык из трёх моделей. Переводы читаются естественно, без калек с английского. Единственный минус — иногда избыточно «гладкие» формулировки.

GPT-4o: 4.0/5. Хороший перевод, но чаще встречаются англицизмы и конструкции, нехарактерные для русского. «Это является критическим моментом» вместо «это важно».

Gemini 1.5 Pro: 3.5/5. Приемлемый перевод, но заметно менее идиоматичный русский. Больше калек, иногда странный порядок слов.

Анализ текста

Тест: резюмирование статьи на русском (1500 слов), извлечение ключевых тезисов, классификация тональности отзывов.

GPT-4o: 4.5/5. Лучшие резюме — лаконичные, структурированные, без потери ключевых деталей. Классификация тональности — безошибочная на всех тестовых примерах.

Claude 3.5 Sonnet: 4.5/5. Сопоставимое качество с GPT-4o. Резюме чуть более развёрнутые. Отлично справляется с нюансами русского текста.

Gemini 1.5 Pro: 4.0/5. Хорошие резюме, но иногда упускает контекст. Преимущество — может обработать значительно больший контекст (до 1 млн токенов).

Генерация кода

Тест: написание функции на Python по описанию на русском, рефакторинг кода с комментариями на русском, написание SQL-запроса по ТЗ.

Claude 3.5 Sonnet: 5.0/5. Лидер в кодогенерации. Все три задачи решены без ошибок с первого раза. Комментарии в коде — грамотные, на русском. Подробнее о ИИ для кода — в обзоре ИИ-ассистентов.

GPT-4o: 4.5/5. Код работает, но в одной задаче потребовалось уточнение. Комментарии иногда переключаются на английский.

Gemini 1.5 Pro: 4.0/5. Рабочий код, но менее элегантные решения. SQL-запрос содержал избыточный подзапрос.

Рассуждения

Тест: логические задачи, математика, разбор ситуаций с несколькими переменными — всё на русском языке.

GPT-4o: 4.5/5. Уверенно решает логические задачи. Математика — без ошибок в базовых задачах, одна ошибка в сложной.

Claude 3.5 Sonnet: 4.0/5. Хорошие рассуждения, но на одной математической задаче допустил вычислительную ошибку. Объяснения — самые подробные и понятные.

Gemini 1.5 Pro: 4.0/5. Сопоставимо с Claude. Преимущество: при использовании в формате «подумай пошагово» показывает улучшение на 20–30%.

Фактология

Тест: вопросы о российских реалиях (история, география, законодательство), актуальные факты об ИИ-индустрии, проверка на галлюцинации.

GPT-4o: 4.0/5. Хорошо знает российскую историю и географию. Актуальные данные — до апреля 2024 (дата обучения). На провокационных вопросах галлюцинировал один раз из пяти.

Claude 3.5 Sonnet: 4.5/5. Точнее всех на российских фактах. При неуверенности — честно об этом говорит вместо галлюцинации. Дата обучения — до апреля 2024.

Gemini 1.5 Pro: 3.5/5. Слабее на российской фактологии. Два раза перепутал даты. Преимущество — может использовать Google Search для актуальных данных.

Итоговая таблица

Claude 3.5 Sonnet — лидер по качеству русского языка и генерации кода. Лучший выбор для разработчиков и задач, где важен стиль текста. Цена: $3/$15 за миллион токенов.

GPT-4o — лучший баланс между качеством и универсальностью. Лидер в анализе и рассуждениях. Огромная экосистема инструментов. Цена: $2.50/$10.

Gemini 1.5 Pro — выбор для задач с очень большим контекстом (документы, книги). Русский язык — слабее конкурентов. Цена: $1.25/$5 (дешевле конкурентов).

Для большинства задач на русском языке Claude 3.5 Sonnet и GPT-4o — равноценные лидеры с разными сильными сторонами. Для выбора модели ориентируйтесь на приоритетную задачу.

Подробнее: Полный гайд по LLM для разработчиков

Методология тестирования на русском языке

Тестирование GPT-4o, Claude и Gemini на русскоязычных задачах выявляет существенные различия в качестве, которые не отражают англоязычные бенчмарки. Мы оцениваем пять категорий: генерация текста, понимание смысла, работа с кодом, анализ данных и знание российского контекста.

Результаты тестирования по категориям

Задача	GPT-4o	Claude 3.5 Sonnet	Gemini 1.5 Pro
Написание статьи в журналистском стиле	★★★★☆	★★★★★	★★★☆☆
Объяснение технической темы простым языком	★★★★☆	★★★★★	★★★★☆
Перефразирование без потери смысла	★★★★☆	★★★★☆	★★★☆☆
Написание кода с комментариями на русском	★★★★★	★★★★★	★★★★☆
Знание российских реалий (законы, компании)	★★★☆☆	★★★☆☆	★★★★☆
Работа с таблицами и данными	★★★★★	★★★★☆	★★★★★
Суммаризация длинных текстов	★★★★☆	★★★★★	★★★★☆

GPT-4o на русском: сильные и слабые стороны

Сильные стороны: GPT-4o хорошо справляется с программированием, математическими задачами и анализом данных вне зависимости от языка запроса. Русский текст на выходе грамотный, но иногда звучит «переводным» — буквальные конструкции вместо идиоматических.

Слабые стороны: знание специфики российского рынка (нормативная база, крупные игроки, актуальные события) ограничено из-за акцента на западные источники при обучении.

Claude на русском: почему занимает первое место

Claude 3.5 Sonnet показал лучшее качество русскоязычных текстов в нашем тестировании. Сгенерированные тексты читаются естественно для носителей языка, модель правильно использует падежи в сложных конструкциях, понимает контекст и иронию. Особенно выделяется способность удерживать стиль и тональность на протяжении длинного текста.

Gemini на русском: неожиданно хорош для фактчекинга

Gemini с интегрированным поиском Google показал лучшие результаты при работе с актуальными фактами. Когда нужно проверить свежие данные, статистику или новости — Gemini со включённым поиском превосходит оба конкурента. Знание российского контекста у Gemini чуть выше благодаря индексации русскоязычного веба через Google.

Практический вывод для русскоязычных пользователей

Для большинства повседневных задач разница между GPT-4o и Claude минимальна. Ключевые факторы выбора: если важны Creative writing и длинные тексты — Claude; если важны Code + Data + мультимодальность — GPT-4o; если важна актуальность информации — Gemini с поиском.