Мультимодальные модели: ИИ, который видит, слышит и читает

Как работают мультимодальные LLM: GPT-4V, Claude 3, Gemini. Обработка изображений, аудио и видео одной моделью — архитектура и применение.

Мультимодальные модели: ИИ, который видит, слышит и читает

До 2023 года нейросети для текста, изображений и аудио существовали отдельно. GPT работал с текстом. CLIP связывал текст и изображения. Whisper распознавал речь. Мультимодальные модели объединили всё в одну систему. GPT-4V, Claude 3, Gemini 1.5 принимают текст, изображения, а некоторые — аудио и видео, и генерируют ответ на основе всех входных данных одновременно.

Что значит «мультимодальность»

Модальность — тип данных: текст, изображение, аудио, видео. Мультимодальная модель обрабатывает несколько модальностей в одном запросе. Практически это значит: можно отправить модели фотографию графика и спросить «какой тренд показывает этот график?», или загрузить скриншот ошибки и попросить объяснить, что пошло не так.

Различают два типа мультимодальности:

  • Понимание (input) — модель принимает разные модальности: текст + изображения, текст + аудио
  • Генерация (output) — модель генерирует разные модальности: текст + изображения, текст + аудио

Большинство сегодняшних мультимодальных LLM — понимающие: они принимают изображения и аудио, но генерируют только текст. GPT-4o и Gemini 2.0 начали двигаться к генеративной мультимодальности, генерируя аудио нативно.

Архитектура: как модель «видит»

Языковая модель работает с токенами — дискретными единицами текста. Изображение — непрерывный массив пикселей. Чтобы подать изображение в LLM, его нужно превратить в последовательность токенов.

Стандартный подход:

  1. Vision Encoder — нейросеть (обычно ViT, Vision Transformer), обученная на миллионах изображений, извлекает визуальные признаки и представляет изображение как набор эмбеддингов
  2. Projection Layer — линейная проекция, которая переводит визуальные эмбеддинги в пространство текстовых токенов LLM
  3. LLM — языковая модель получает последовательность из текстовых и визуальных токенов и обрабатывает их единообразно

Изображение 1024×1024 превращается в 256–1024 визуальных токена. Это объясняет, почему обработка изображений потребляет больше контекстного окна и стоит дороже, чем текст.

Обзор ведущих мультимодальных моделей

GPT-4V / GPT-4o (OpenAI)

GPT-4 получил поддержку изображений (GPT-4V) в сентябре 2023-го. GPT-4o (mai 2024) стал «omni» — принимает текст, изображения и аудио, генерирует текст и аудио.

GPT-4o обрабатывает аудио нативно, без промежуточного этапа транскрибации. Модель «слышит» интонацию, паузы, эмоции в голосе. Это позволяет создавать голосовых ассистентов с естественной реакцией — именно эту возможность OpenAI продемонстрировала в ставшей вирусной демонстрации в мае 2024-го.

Claude 3 / Claude 3.5 (Anthropic)

Claude 3 (март 2024) принёс поддержку изображений. Три модели — Haiku, Sonnet, Opus — все понимают изображения. Claude 3.5 Sonnet стал одной из лучших моделей для визуальных задач.

Сильные стороны Claude в визуальных задачах:

  • Точное чтение текста на изображениях — рукописного, мелкого, в таблицах
  • Анализ графиков, диаграмм, схем с извлечением числовых данных
  • Понимание скриншотов интерфейсов — описание UI-элементов, выявление ошибок

Gemini 1.5 Pro (Google)

Gemini 1.5 Pro принимает текст, изображения, аудио и видео — самый широкий набор модальностей. Контекстное окно до 1 миллиона токенов (10 миллионов в экспериментальном режиме) позволяет обрабатывать часы видео или тысячи изображений в одном запросе.

Google продемонстрировала обработку часового видео: модель отвечала на вопросы о конкретных моментах, находила объекты в кадрах, описывала последовательность действий. Для задач анализа видеоконтента Gemini не имеет аналогов по масштабу обработки.

Open-source: LLaVA, InternVL, Qwen-VL

Открытые мультимодальные модели быстро развиваются:

  • LLaVA (Large Language and Vision Assistant) — исследовательский проект, показавший, что качественную мультимодальную модель можно обучить на одном GPU за сутки
  • InternVL 2 — китайская модель, лидирующая среди open-source по визуальным бенчмаркам
  • Qwen-VL — мультимодальная версия Qwen, хорошо работает с текстом на изображениях на разных языках

Практические применения

Анализ документов. Сканы, PDF, фотографии документов — модель извлекает данные без OCR-пайплайна. Загрузил фото чека — получил структурированные данные. Загрузил скан договора — получил резюме ключевых условий.

Работа с кодом. Скриншот ошибки в браузере → модель анализирует ошибку и предлагает исправление. Скриншот макета дизайна → модель генерирует HTML/CSS. Фото схемы архитектуры на доске → модель создаёт текстовое описание.

Анализ изображений для бизнеса. Фото товара → описание для каталога. Фото повреждений автомобиля → оценка ущерба. Фото полки магазина → контроль выкладки. Медицинские снимки → предварительный анализ (со всеми оговорками о валидации).

Доступность. Описание изображений для слабовидящих. Распознавание текста в реальном времени. Перевод текста на фотографиях.

Ограничения

Галлюцинации. Модели «видят» то, чего нет на изображении. Claude 3 может описать текст на изображении, которого там нет. GPT-4V иногда неправильно считает объекты. Верификация критически важна.

Разрешение. Модели обрабатывают изображения с ограниченным разрешением — обычно до 2048×2048 пикселей. Мелкие детали могут быть потеряны при масштабировании.

Стоимость. Каждое изображение — сотни токенов. При обработке тысяч изображений расходы быстро растут. Один запрос с изображением стоит в 5–10 раз больше текстового.

Что дальше

Направление развития очевидно: от понимания к генерации. Модели будут не только принимать, но и создавать изображения, аудио, видео — всё в рамках одного диалога. GPT-4o уже генерирует изображения. Gemini 2.0 Flash генерирует аудио. Следующий шаг — единая модель, которая свободно работает со всеми модальностями на входе и выходе, стирая границу между текстовым, визуальным и аудиальным ИИ.

Мультимодальные модели: что они умеют

Мультимодальные модели обрабатывают и генерируют информацию разных типов в единой архитектуре: текст, изображения, аудио, видео. В отличие от ранних систем где отдельные модели отвечали за каждую модальность, современные мультимодальные LLM понимают связи между форматами. «Объясни что происходит на этом графике» — типичный мультимодальный запрос.

Сравнение мультимодальных моделей 2025

МодельВводВыводСильная сторона
GPT-4oТекст, изображения, аудиоТекст, изображения (DALL-E)Нативный голосовой режим
Claude 3.5 SonnetТекст, изображения, PDFТекстАнализ документов, код
Gemini 1.5 ProТекст, изображения, видео, аудиоТекст, изображенияДлинное видео, 1M контекст
Llama 4 Scout/MaverickТекст, изображенияТекстOpen source мультимодальность
Qwen-VLТекст, изображенияТекстOCR, документы, Chinese
LLaVA 1.6Текст, изображенияТекстOpen source, self-hosted

Gemini 1.5 Pro: рекорд по видео

Gemini 1.5 Pro имеет уникальную возможность — анализ длинных видео (до 1 часа). Загрузите видео с лекцией, интервью или вебинаром — модель создаст конспект, ответит на вопросы о конкретных моментах, выявит ключевые идеи. Контекстное окно в 1M токенов вмещает ~11 часов аудио, 1 час видео или 1 500 страниц текста.

Практические применения

Анализ документов: Claude лидирует в работе с PDF-контрактами, финансовыми отчётами, техническими спецификациями. Понимает таблицы, графики, схемы в контексте текста.

Медицинская визуализация: GPT-4o и Gemini обучены на медицинских изображениях (рентген, гистология). Не замена диагностике, но инструмент для второго мнения и обучения.

Контроль качества: CV-модели + LLM для описания дефектов на производстве. Камера фиксирует брак → мультимодальная модель описывает тип и расположение дефекта → автоматический отчёт.

Доступность: описание изображений для слабовидящих, автоматические субтитры, перевод текста с фотографий в реальном времени.

Ограничения мультимодальных моделей

Несмотря на прогресс, модели часто ошибаются в: счёте объектов на изображениях, точном распознавании мелкого текста, понимании 3D-пространства, временной последовательности в видео. Для критически важных задач всегда требуется верификация человеком.


Читайте также