Dataset
Материал из Montelibero
Перейти к навигацииПерейти к поиску
Dataset (набор данных) — структурированный набор примеров, используемый для обучения, тестирования и оценки языковых моделей.
Типы
- Training dataset — данные для обучения модели (pre-training, fine-tuning).
- Validation dataset — данные для настройки гиперпараметров и предотвращения переобучения.
- Test dataset — данные для финальной оценки качества модели.
- Benchmark — стандартизированный набор для сравнения моделей (MMLU, HumanEval, GSM8K).
Форматы
- Текстовый корпус — сырой текст (Wikipedia, Common Crawl).
- Инструктивный — пары «вопрос → ответ» (для fine-tuning).
- Предпочтения — тройки «запрос → хороший ответ → плохой ответ» (для RLHF).
- Размеченный — текст с метками (NER, классификация).
Проблемы
- Bias — предвзятость, унаследованная из данных.
- Качество — шум, дубликаты, ошибки в разметке.
- Размер — большие datasets требуют значительных ресурсов для обработки.
- Представительность — насколько данные отражают реальное использование.
Связанные понятия
- Pre-training — использует крупнейшие datasets.
- Fine-tuning — использует специализированные datasets.
- Evaluation — использует benchmarks для оценки.