Streaming
Материал из Montelibero
Streaming — потоковая генерация токенов, при которой модель возвращает ответ по частям по мере генерации, а не целиком по завершении.
Общее
Без streaming: ждём 10 секунд → получаем весь ответ. С streaming: через 0.5 секунды получаем первый токен → через 10 секунд — все остальные.
Зачем
- Скорость восприятия — пользователь видит прогресс почти мгновенно.
- Обратная связь — можно остановить генерацию, если ответ пошёл не туда.
- Интерактивность — основа для live-интерфейсов и агентов с длительной работой.
Реализация
Streaming реализуется через Server-Sent Events (SSE) или WebSocket. Модель возвращает токены по одному (или мелкими группами) по мере генерации. Клиент отображает их немедленно.
В сессии
Streaming влияет на UX: агент «печатает» ответ в реальном времени. Это создаёт ощущение живого собеседника, но требует стабильного соединения.