Мультимодальность
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Мультимодальность — способность языковой модели обрабатывать и генерировать разные типы данных: текст, изображения, аудио, видео.
Общее
Традиционные LLM работают только с текстом. Мультимодальные модели расширяют это:
- Текст → текст — стандартная генерация.
- Изображение → текст — распознавание и описание изображений.
- Текст → изображение — генерация изображений по описанию.
- Текст → аудио — синтез речи (TTS).
- Аудио → текст — распознавание речи (STT).
В сессии ИИ
Мультимодальность позволяет агенту:
- Принимать фотографии от пользователя и анализировать их.
- Озвучивать ответы (TTS).
- Генерировать визуальный контент.
Ограничения
- Не все модели поддерживают все модальности.
- Обработка изображений и аудио требует больше токенов и времени.
- Стоимость выше по сравнению с чистым текстом.
Связанные понятия
- LLM — базовая модель, которая может быть мультимодальной.
- Токен — мультимодальные модели кодируют изображения в токены.
- Инструменты ИИ — инструменты могут предоставлять доступ к модальностям.