Dataset

Материал из Montelibero

Перейти к навигации Перейти к поиску

Dataset (набор данных) — структурированный набор примеров, используемый для обучения, тестирования и оценки языковых моделей.

Типы

Training dataset — данные для обучения модели (pre-training, fine-tuning).
Validation dataset — данные для настройки гиперпараметров и предотвращения переобучения.
Test dataset — данные для финальной оценки качества модели.
Benchmark — стандартизированный набор для сравнения моделей (MMLU, HumanEval, GSM8K).

Форматы

Текстовый корпус — сырой текст (Wikipedia, Common Crawl).
Инструктивный — пары «вопрос → ответ» (для fine-tuning).
Предпочтения — тройки «запрос → хороший ответ → плохой ответ» (для RLHF).
Размеченный — текст с метками (NER, классификация).

Проблемы

Bias — предвзятость, унаследованная из данных.
Качество — шум, дубликаты, ошибки в разметке.
Размер — большие datasets требуют значительных ресурсов для обработки.
Представительность — насколько данные отражают реальное использование.

Связанные понятия

Pre-training — использует крупнейшие datasets.
Fine-tuning — использует специализированные datasets.
Evaluation — использует benchmarks для оценки.

Источник — https://monte.wiki/ru/index.php?title=Dataset&oldid=5567

Категория:

ИИ

Навигация