Streaming

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Streaming — потоковая генерация токенов, при которой модель возвращает ответ по частям по мере генерации, а не целиком по завершении.

Общее

Без streaming: ждём 10 секунд → получаем весь ответ. С streaming: через 0.5 секунды получаем первый токен → через 10 секунд — все остальные.

Зачем

  • Скорость восприятия — пользователь видит прогресс почти мгновенно.
  • Обратная связь — можно остановить генерацию, если ответ пошёл не туда.
  • Интерактивность — основа для live-интерфейсов и агентов с длительной работой.

Реализация

Streaming реализуется через Server-Sent Events (SSE) или WebSocket. Модель возвращает токены по одному (или мелкими группами) по мере генерации. Клиент отображает их немедленно.

В сессии

Streaming влияет на UX: агент «печатает» ответ в реальном времени. Это создаёт ощущение живого собеседника, но требует стабильного соединения.

Связанные понятия

  • LLM — источник потоковых токенов.
  • Токен — элемент, который передаётся в потоке.
  • Channel — канал должен поддерживать streaming.