Rate limiting

Rate limiting — ограничение числа запросов к API или модели за единицу времени.

Зачем

Rate limiting защищает от:

Злоупотребления API.
Непредвиденных расходов.
Перегрузки сервиса.
Злонамеренного использования.

Как работает

Сервис отслеживает количество запросов от одного источника (по API-ключу, IP, аккаунту) за окно времени. При превышении лимита:

Запрос отклоняется (ошибка 429).
Возвращается время до сброса.
Может быть Expired-backoff (повтор через указанное время).

Типичные лимиты

RPM — запросов в минуту.
RPD — запросов в день.
TPM — токенов в минуту.
RPS — запросов в секунду.

В сессии ИИ

Агент, обращающийся к внешним API (LLM, поиск, браузер), должен учитывать rate limiting. При достижении лимита — подождать или переключиться на альтернативу.

Связанные понятия

LLM — источник запросов, к которому применяется лимитирование.
ИИ-агент — агент должен учитывать лимиты при планировании.

Rate limiting

Содержание

Зачем

Как работает

Типичные лимиты

В сессии ИИ

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты