Мультимодальные модели: ИИ, который видит, слышит и читает
Как работают мультимодальные LLM: GPT-4V, Claude 3, Gemini. Обработка изображений, аудио и видео одной моделью — архитектура и применение.
До 2023 года нейросети для текста, изображений и аудио существовали отдельно. GPT работал с текстом. CLIP связывал текст и изображения. Whisper распознавал речь. Мультимодальные модели объединили всё в одну систему. GPT-4V, Claude 3, Gemini 1.5 принимают текст, изображения, а некоторые — аудио и видео, и генерируют ответ на основе всех входных данных одновременно.
Что значит «мультимодальность»
Модальность — тип данных: текст, изображение, аудио, видео. Мультимодальная модель обрабатывает несколько модальностей в одном запросе. Практически это значит: можно отправить модели фотографию графика и спросить «какой тренд показывает этот график?», или загрузить скриншот ошибки и попросить объяснить, что пошло не так.
Различают два типа мультимодальности:
- Понимание (input) — модель принимает разные модальности: текст + изображения, текст + аудио
- Генерация (output) — модель генерирует разные модальности: текст + изображения, текст + аудио
Большинство сегодняшних мультимодальных LLM — понимающие: они принимают изображения и аудио, но генерируют только текст. GPT-4o и Gemini 2.0 начали двигаться к генеративной мультимодальности, генерируя аудио нативно.
Архитектура: как модель «видит»
Языковая модель работает с токенами — дискретными единицами текста. Изображение — непрерывный массив пикселей. Чтобы подать изображение в LLM, его нужно превратить в последовательность токенов.
Стандартный подход:
- Vision Encoder — нейросеть (обычно ViT, Vision Transformer), обученная на миллионах изображений, извлекает визуальные признаки и представляет изображение как набор эмбеддингов
- Projection Layer — линейная проекция, которая переводит визуальные эмбеддинги в пространство текстовых токенов LLM
- LLM — языковая модель получает последовательность из текстовых и визуальных токенов и обрабатывает их единообразно
Изображение 1024×1024 превращается в 256–1024 визуальных токена. Это объясняет, почему обработка изображений потребляет больше контекстного окна и стоит дороже, чем текст.
Обзор ведущих мультимодальных моделей
GPT-4V / GPT-4o (OpenAI)
GPT-4 получил поддержку изображений (GPT-4V) в сентябре 2023-го. GPT-4o (mai 2024) стал «omni» — принимает текст, изображения и аудио, генерирует текст и аудио.
GPT-4o обрабатывает аудио нативно, без промежуточного этапа транскрибации. Модель «слышит» интонацию, паузы, эмоции в голосе. Это позволяет создавать голосовых ассистентов с естественной реакцией — именно эту возможность OpenAI продемонстрировала в ставшей вирусной демонстрации в мае 2024-го.
Claude 3 / Claude 3.5 (Anthropic)
Claude 3 (март 2024) принёс поддержку изображений. Три модели — Haiku, Sonnet, Opus — все понимают изображения. Claude 3.5 Sonnet стал одной из лучших моделей для визуальных задач.
Сильные стороны Claude в визуальных задачах:
- Точное чтение текста на изображениях — рукописного, мелкого, в таблицах
- Анализ графиков, диаграмм, схем с извлечением числовых данных
- Понимание скриншотов интерфейсов — описание UI-элементов, выявление ошибок
Gemini 1.5 Pro (Google)
Gemini 1.5 Pro принимает текст, изображения, аудио и видео — самый широкий набор модальностей. Контекстное окно до 1 миллиона токенов (10 миллионов в экспериментальном режиме) позволяет обрабатывать часы видео или тысячи изображений в одном запросе.
Google продемонстрировала обработку часового видео: модель отвечала на вопросы о конкретных моментах, находила объекты в кадрах, описывала последовательность действий. Для задач анализа видеоконтента Gemini не имеет аналогов по масштабу обработки.
Open-source: LLaVA, InternVL, Qwen-VL
Открытые мультимодальные модели быстро развиваются:
- LLaVA (Large Language and Vision Assistant) — исследовательский проект, показавший, что качественную мультимодальную модель можно обучить на одном GPU за сутки
- InternVL 2 — китайская модель, лидирующая среди open-source по визуальным бенчмаркам
- Qwen-VL — мультимодальная версия Qwen, хорошо работает с текстом на изображениях на разных языках
Практические применения
Анализ документов. Сканы, PDF, фотографии документов — модель извлекает данные без OCR-пайплайна. Загрузил фото чека — получил структурированные данные. Загрузил скан договора — получил резюме ключевых условий.
Работа с кодом. Скриншот ошибки в браузере → модель анализирует ошибку и предлагает исправление. Скриншот макета дизайна → модель генерирует HTML/CSS. Фото схемы архитектуры на доске → модель создаёт текстовое описание.
Анализ изображений для бизнеса. Фото товара → описание для каталога. Фото повреждений автомобиля → оценка ущерба. Фото полки магазина → контроль выкладки. Медицинские снимки → предварительный анализ (со всеми оговорками о валидации).
Доступность. Описание изображений для слабовидящих. Распознавание текста в реальном времени. Перевод текста на фотографиях.
Ограничения
Галлюцинации. Модели «видят» то, чего нет на изображении. Claude 3 может описать текст на изображении, которого там нет. GPT-4V иногда неправильно считает объекты. Верификация критически важна.
Разрешение. Модели обрабатывают изображения с ограниченным разрешением — обычно до 2048×2048 пикселей. Мелкие детали могут быть потеряны при масштабировании.
Стоимость. Каждое изображение — сотни токенов. При обработке тысяч изображений расходы быстро растут. Один запрос с изображением стоит в 5–10 раз больше текстового.
Что дальше
Направление развития очевидно: от понимания к генерации. Модели будут не только принимать, но и создавать изображения, аудио, видео — всё в рамках одного диалога. GPT-4o уже генерирует изображения. Gemini 2.0 Flash генерирует аудио. Следующий шаг — единая модель, которая свободно работает со всеми модальностями на входе и выходе, стирая границу между текстовым, визуальным и аудиальным ИИ.
Мультимодальные модели: что они умеют
Мультимодальные модели обрабатывают и генерируют информацию разных типов в единой архитектуре: текст, изображения, аудио, видео. В отличие от ранних систем где отдельные модели отвечали за каждую модальность, современные мультимодальные LLM понимают связи между форматами. «Объясни что происходит на этом графике» — типичный мультимодальный запрос.
Сравнение мультимодальных моделей 2025
| Модель | Ввод | Вывод | Сильная сторона |
|---|---|---|---|
| GPT-4o | Текст, изображения, аудио | Текст, изображения (DALL-E) | Нативный голосовой режим |
| Claude 3.5 Sonnet | Текст, изображения, PDF | Текст | Анализ документов, код |
| Gemini 1.5 Pro | Текст, изображения, видео, аудио | Текст, изображения | Длинное видео, 1M контекст |
| Llama 4 Scout/Maverick | Текст, изображения | Текст | Open source мультимодальность |
| Qwen-VL | Текст, изображения | Текст | OCR, документы, Chinese |
| LLaVA 1.6 | Текст, изображения | Текст | Open source, self-hosted |
Gemini 1.5 Pro: рекорд по видео
Gemini 1.5 Pro имеет уникальную возможность — анализ длинных видео (до 1 часа). Загрузите видео с лекцией, интервью или вебинаром — модель создаст конспект, ответит на вопросы о конкретных моментах, выявит ключевые идеи. Контекстное окно в 1M токенов вмещает ~11 часов аудио, 1 час видео или 1 500 страниц текста.
Практические применения
Анализ документов: Claude лидирует в работе с PDF-контрактами, финансовыми отчётами, техническими спецификациями. Понимает таблицы, графики, схемы в контексте текста.
Медицинская визуализация: GPT-4o и Gemini обучены на медицинских изображениях (рентген, гистология). Не замена диагностике, но инструмент для второго мнения и обучения.
Контроль качества: CV-модели + LLM для описания дефектов на производстве. Камера фиксирует брак → мультимодальная модель описывает тип и расположение дефекта → автоматический отчёт.
Доступность: описание изображений для слабовидящих, автоматические субтитры, перевод текста с фотографий в реальном времени.
Ограничения мультимодальных моделей
Несмотря на прогресс, модели часто ошибаются в: счёте объектов на изображениях, точном распознавании мелкого текста, понимании 3D-пространства, временной последовательности в видео. Для критически важных задач всегда требуется верификация человеком.