Rate limiting

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Rate limiting — ограничение числа запросов к API или модели за единицу времени.

Зачем

Rate limiting защищает от:

  • Злоупотребления API.
  • Непредвиденных расходов.
  • Перегрузки сервиса.
  • Злонамеренного использования.

Как работает

Сервис отслеживает количество запросов от одного источника (по API-ключу, IP, аккаунту) за окно времени. При превышении лимита:

  • Запрос отклоняется (ошибка 429).
  • Возвращается время до сброса.
  • Может быть Expired-backoff (повтор через указанное время).

Типичные лимиты

  • RPM — запросов в минуту.
  • RPD — запросов в день.
  • TPM — токенов в минуту.
  • RPS — запросов в секунду.

В сессии ИИ

Агент, обращающийся к внешним API (LLM, поиск, браузер), должен учитывать rate limiting. При достижении лимита — подождать или переключиться на альтернативу.

Связанные понятия

  • LLM — источник запросов, к которому применяется лимитирование.
  • ИИ-агент — агент должен учитывать лимиты при планировании.