Evaluation

Материал из Montelibero
Перейти к навигацииПерейти к поиску

Evaluation (оценка качества) — процесс измерения производительности и качества языковой модели на стандартизированных наборах задач.

Методы

Автоматические (benchmarks)

  • MMLU — знание в 57 предметных областях.
  • HumanEval — написание кода по спецификации.
  • GSM8K — математические задачи школьного уровня.
  • HellaSwag — здравый смысл и понимание контекста.
  • MATH — математические задачи продвинутого уровня.

Человеческие

  • Human eval — люди оценивают качество ответов.
  • A/B testing — сравнение двух моделей на одних запросах.
  • Chatbot Arena — слепое сравнение моделей людьми (Elo-рейтинг).

Проблемы

  • Contamination — модель могла видеть тестовые данные во время обучения.
  • Overfitting — оптимизация под конкретный benchmark ≠ реальное улучшение.
  • Субъективность — человеческие оценки зависят от предпочтений оценщика.

В сессии

Оценка качества в реальной сессии сложнее benchmark — контекст уникален, задачи нестандартны. Практический подход: A/B тестирование на реальных запросах.

Связанные понятия