GPT-4o vs Claude 3.5 vs Gemini: тест на русском
Независимое сравнение GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro на задачах на русском языке — код, анализ, перевод.
Три модели претендуют на звание лучшей универсальной LLM: GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google. Международные бенчмарки — MMLU, HumanEval, MATH — дают разные расклады в зависимости от задачи. Но для русскоязычных пользователей критичны другие параметры: качество русского языка, понимание культурного контекста, работа с кириллицей в коде. Мы провели серию тестов, чтобы определить, какая модель лучше справляется с задачами на русском.
Методология
Каждую модель тестировали через API с идентичными промптами. Температура: 0.3 для фактических задач, 0.7 для творческих. Пять категорий: перевод, анализ текста, генерация кода, рассуждения и фактология. По три задачи в каждой категории. Оценка — экспертная, по шкале 1–5.
Перевод
Тест: перевод технического блог-поста с английского на русский (800 слов), маркетингового текста и юридического абзаца.
Claude 3.5 Sonnet: 4.5/5. Лучший русский язык из трёх моделей. Переводы читаются естественно, без калек с английского. Единственный минус — иногда избыточно «гладкие» формулировки.
GPT-4o: 4.0/5. Хороший перевод, но чаще встречаются англицизмы и конструкции, нехарактерные для русского. «Это является критическим моментом» вместо «это важно».
Gemini 1.5 Pro: 3.5/5. Приемлемый перевод, но заметно менее идиоматичный русский. Больше калек, иногда странный порядок слов.
Анализ текста
Тест: резюмирование статьи на русском (1500 слов), извлечение ключевых тезисов, классификация тональности отзывов.
GPT-4o: 4.5/5. Лучшие резюме — лаконичные, структурированные, без потери ключевых деталей. Классификация тональности — безошибочная на всех тестовых примерах.
Claude 3.5 Sonnet: 4.5/5. Сопоставимое качество с GPT-4o. Резюме чуть более развёрнутые. Отлично справляется с нюансами русского текста.
Gemini 1.5 Pro: 4.0/5. Хорошие резюме, но иногда упускает контекст. Преимущество — может обработать значительно больший контекст (до 1 млн токенов).
Генерация кода
Тест: написание функции на Python по описанию на русском, рефакторинг кода с комментариями на русском, написание SQL-запроса по ТЗ.
Claude 3.5 Sonnet: 5.0/5. Лидер в кодогенерации. Все три задачи решены без ошибок с первого раза. Комментарии в коде — грамотные, на русском. Подробнее о ИИ для кода — в обзоре ИИ-ассистентов.
GPT-4o: 4.5/5. Код работает, но в одной задаче потребовалось уточнение. Комментарии иногда переключаются на английский.
Gemini 1.5 Pro: 4.0/5. Рабочий код, но менее элегантные решения. SQL-запрос содержал избыточный подзапрос.
Рассуждения
Тест: логические задачи, математика, разбор ситуаций с несколькими переменными — всё на русском языке.
GPT-4o: 4.5/5. Уверенно решает логические задачи. Математика — без ошибок в базовых задачах, одна ошибка в сложной.
Claude 3.5 Sonnet: 4.0/5. Хорошие рассуждения, но на одной математической задаче допустил вычислительную ошибку. Объяснения — самые подробные и понятные.
Gemini 1.5 Pro: 4.0/5. Сопоставимо с Claude. Преимущество: при использовании в формате «подумай пошагово» показывает улучшение на 20–30%.
Фактология
Тест: вопросы о российских реалиях (история, география, законодательство), актуальные факты об ИИ-индустрии, проверка на галлюцинации.
GPT-4o: 4.0/5. Хорошо знает российскую историю и географию. Актуальные данные — до апреля 2024 (дата обучения). На провокационных вопросах галлюцинировал один раз из пяти.
Claude 3.5 Sonnet: 4.5/5. Точнее всех на российских фактах. При неуверенности — честно об этом говорит вместо галлюцинации. Дата обучения — до апреля 2024.
Gemini 1.5 Pro: 3.5/5. Слабее на российской фактологии. Два раза перепутал даты. Преимущество — может использовать Google Search для актуальных данных.
Итоговая таблица
Claude 3.5 Sonnet — лидер по качеству русского языка и генерации кода. Лучший выбор для разработчиков и задач, где важен стиль текста. Цена: $3/$15 за миллион токенов.
GPT-4o — лучший баланс между качеством и универсальностью. Лидер в анализе и рассуждениях. Огромная экосистема инструментов. Цена: $2.50/$10.
Gemini 1.5 Pro — выбор для задач с очень большим контекстом (документы, книги). Русский язык — слабее конкурентов. Цена: $1.25/$5 (дешевле конкурентов).
Для большинства задач на русском языке Claude 3.5 Sonnet и GPT-4o — равноценные лидеры с разными сильными сторонами. Для выбора модели ориентируйтесь на приоритетную задачу.
Подробнее: Полный гайд по LLM для разработчиков
Методология тестирования на русском языке
Тестирование GPT-4o, Claude и Gemini на русскоязычных задачах выявляет существенные различия в качестве, которые не отражают англоязычные бенчмарки. Мы оцениваем пять категорий: генерация текста, понимание смысла, работа с кодом, анализ данных и знание российского контекста.
Результаты тестирования по категориям
| Задача | GPT-4o | Claude 3.5 Sonnet | Gemini 1.5 Pro |
|---|---|---|---|
| Написание статьи в журналистском стиле | ★★★★☆ | ★★★★★ | ★★★☆☆ |
| Объяснение технической темы простым языком | ★★★★☆ | ★★★★★ | ★★★★☆ |
| Перефразирование без потери смысла | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| Написание кода с комментариями на русском | ★★★★★ | ★★★★★ | ★★★★☆ |
| Знание российских реалий (законы, компании) | ★★★☆☆ | ★★★☆☆ | ★★★★☆ |
| Работа с таблицами и данными | ★★★★★ | ★★★★☆ | ★★★★★ |
| Суммаризация длинных текстов | ★★★★☆ | ★★★★★ | ★★★★☆ |
GPT-4o на русском: сильные и слабые стороны
Сильные стороны: GPT-4o хорошо справляется с программированием, математическими задачами и анализом данных вне зависимости от языка запроса. Русский текст на выходе грамотный, но иногда звучит «переводным» — буквальные конструкции вместо идиоматических.
Слабые стороны: знание специфики российского рынка (нормативная база, крупные игроки, актуальные события) ограничено из-за акцента на западные источники при обучении.
Claude на русском: почему занимает первое место
Claude 3.5 Sonnet показал лучшее качество русскоязычных текстов в нашем тестировании. Сгенерированные тексты читаются естественно для носителей языка, модель правильно использует падежи в сложных конструкциях, понимает контекст и иронию. Особенно выделяется способность удерживать стиль и тональность на протяжении длинного текста.
Gemini на русском: неожиданно хорош для фактчекинга
Gemini с интегрированным поиском Google показал лучшие результаты при работе с актуальными фактами. Когда нужно проверить свежие данные, статистику или новости — Gemini со включённым поиском превосходит оба конкурента. Знание российского контекста у Gemini чуть выше благодаря индексации русскоязычного веба через Google.
Практический вывод для русскоязычных пользователей
Для большинства повседневных задач разница между GPT-4o и Claude минимальна. Ключевые факторы выбора: если важны Creative writing и длинные тексты — Claude; если важны Code + Data + мультимодальность — GPT-4o; если важна актуальность информации — Gemini с поиском.