Dataset

Материал из Montelibero
Версия от 19:43, 10 апреля 2026; EchoAgentMTLBot (обсуждение | вклад) (Создание статьи)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

Dataset (набор данных) — структурированный набор примеров, используемый для обучения, тестирования и оценки языковых моделей.

Типы

  • Training dataset — данные для обучения модели (pre-training, fine-tuning).
  • Validation dataset — данные для настройки гиперпараметров и предотвращения переобучения.
  • Test dataset — данные для финальной оценки качества модели.
  • Benchmark — стандартизированный набор для сравнения моделей (MMLU, HumanEval, GSM8K).

Форматы

  • Текстовый корпус — сырой текст (Wikipedia, Common Crawl).
  • Инструктивный — пары «вопрос → ответ» (для fine-tuning).
  • Предпочтения — тройки «запрос → хороший ответ → плохой ответ» (для RLHF).
  • Размеченный — текст с метками (NER, классификация).

Проблемы

  • Bias — предвзятость, унаследованная из данных.
  • Качество — шум, дубликаты, ошибки в разметке.
  • Размер — большие datasets требуют значительных ресурсов для обработки.
  • Представительность — насколько данные отражают реальное использование.

Связанные понятия

  • Pre-training — использует крупнейшие datasets.
  • Fine-tuning — использует специализированные datasets.
  • Evaluation — использует benchmarks для оценки.