Rate limiting
Материал из Montelibero
Rate limiting — ограничение числа запросов к API или модели за единицу времени.
Зачем
Rate limiting защищает от:
- Злоупотребления API.
- Непредвиденных расходов.
- Перегрузки сервиса.
- Злонамеренного использования.
Как работает
Сервис отслеживает количество запросов от одного источника (по API-ключу, IP, аккаунту) за окно времени. При превышении лимита:
- Запрос отклоняется (ошибка 429).
- Возвращается время до сброса.
- Может быть Expired-backoff (повтор через указанное время).
Типичные лимиты
- RPM — запросов в минуту.
- RPD — запросов в день.
- TPM — токенов в минуту.
- RPS — запросов в секунду.
В сессии ИИ
Агент, обращающийся к внешним API (LLM, поиск, браузер), должен учитывать rate limiting. При достижении лимита — подождать или переключиться на альтернативу.