Embedding
Embedding (эмбеддинг) — векторное представление текста в числовом пространстве, где семантически близкие фразы находятся рядом.
Общее
Embedding преобразует текст (слово, предложение, документ) в массив чисел (вектор). Близкие по смыслу тексты имеют близкие вектора — это позволяет искать информацию по значению, а не по словам.
Пример: «кошка» и «кот» → близкие вектора. «кошка» и «автомобиль» → далёкие.
Зачем
- Семантический поиск — поиск по смыслу, а не по ключевым словам.
- RAG — эмбеддинги используются для поиска релевантных документов.
- Кластеризация — группировка похожих текстов.
- Сравнение — определение близости двух фраз.
Как работает
Текст пропускается через модель-энкодер (например, OpenAI embeddings, E5, BGE). Результат — вектор из 512–3072 чисел. Расстояние между векторами измеряется через косинусное сходство или евклидово расстояние.
В памяти ИИ
Semantic memory в системах ИИ использует эмбеддинги для поиска прошлых взаимодействий. Вопрос пользователя кодируется в вектор → ищутся похожие прошлые записи → результат подставляется в контекст.