Evaluation
Материал из Montelibero
Evaluation (оценка качества) — процесс измерения производительности и качества языковой модели на стандартизированных наборах задач.
Методы
Автоматические (benchmarks)
- MMLU — знание в 57 предметных областях.
- HumanEval — написание кода по спецификации.
- GSM8K — математические задачи школьного уровня.
- HellaSwag — здравый смысл и понимание контекста.
- MATH — математические задачи продвинутого уровня.
Человеческие
- Human eval — люди оценивают качество ответов.
- A/B testing — сравнение двух моделей на одних запросах.
- Chatbot Arena — слепое сравнение моделей людьми (Elo-рейтинг).
Проблемы
- Contamination — модель могла видеть тестовые данные во время обучения.
- Overfitting — оптимизация под конкретный benchmark ≠ реальное улучшение.
- Субъективность — человеческие оценки зависят от предпочтений оценщика.
В сессии
Оценка качества в реальной сессии сложнее benchmark — контекст уникален, задачи нестандартны. Практический подход: A/B тестирование на реальных запросах.
Связанные понятия
- LLM — объект оценки.
- Dataset — данные для benchmarks.
- Галлюцинация — один из критериев оценки.