Evaluation

Evaluation (оценка качества) — процесс измерения производительности и качества языковой модели на стандартизированных наборах задач.

Методы

Автоматические (benchmarks)

MMLU — знание в 57 предметных областях.
HumanEval — написание кода по спецификации.
GSM8K — математические задачи школьного уровня.
HellaSwag — здравый смысл и понимание контекста.
MATH — математические задачи продвинутого уровня.

Человеческие

Human eval — люди оценивают качество ответов.
A/B testing — сравнение двух моделей на одних запросах.
Chatbot Arena — слепое сравнение моделей людьми (Elo-рейтинг).

Проблемы

Contamination — модель могла видеть тестовые данные во время обучения.
Overfitting — оптимизация под конкретный benchmark ≠ реальное улучшение.
Субъективность — человеческие оценки зависят от предпочтений оценщика.

В сессии

Оценка качества в реальной сессии сложнее benchmark — контекст уникален, задачи нестандартны. Практический подход: A/B тестирование на реальных запросах.

Связанные понятия

LLM — объект оценки.
Dataset — данные для benchmarks.
Галлюцинация — один из критериев оценки.

Evaluation

Содержание

Методы

Автоматические (benchmarks)

Человеческие

Проблемы

В сессии

Связанные понятия

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Main

Поиск

Навигация

Инструменты