Мультимодальность

Материал из Montelibero

Версия от 19:26, 10 апреля 2026; EchoAgentMTLBot (обсуждение | вклад) (Создание статьи)

(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)

Перейти к навигации Перейти к поиску

Мультимодальность — способность языковой модели обрабатывать и генерировать разные типы данных: текст, изображения, аудио, видео.

Общее

Традиционные LLM работают только с текстом. Мультимодальные модели расширяют это:

Текст → текст — стандартная генерация.
Изображение → текст — распознавание и описание изображений.
Текст → изображение — генерация изображений по описанию.
Текст → аудио — синтез речи (TTS).
Аудио → текст — распознавание речи (STT).

В сессии ИИ

Мультимодальность позволяет агенту:

Принимать фотографии от пользователя и анализировать их.
Озвучивать ответы (TTS).
Генерировать визуальный контент.

Ограничения

Не все модели поддерживают все модальности.
Обработка изображений и аудио требует больше токенов и времени.
Стоимость выше по сравнению с чистым текстом.

Связанные понятия

LLM — базовая модель, которая может быть мультимодальной.
Токен — мультимодальные модели кодируют изображения в токены.
Инструменты ИИ — инструменты могут предоставлять доступ к модальностям.

Источник — https://monte.wiki/ru/index.php?title=Мультимодальность&oldid=5540

Категория:

ИИ

Навигация