Обновить

Как создавали нейропоиск Discovery AI — технологию для крупнейшей контентной базы в РФ

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели11K
Всего голосов 14: ↑13 и ↓1+21
Комментарии2

Комментарии 2

Вы проводили какую-то численную оценку качества вашего решения и как строили базу тестовых вопросов и ответов?

Вы пробовали сравнивать ваше решение с типовыми решениями 'на рынке', какой-нибудь opensource rag заточенный на работу с базой ваших документов?

p.s. попробуйте протестировать ваше решение на маленьком датасете, под сотню-другую документов, сравнивая с эталонным алгоритмом, который каждый документ целиком прогоняет через поисковый вопрос с системным промптом типа 'подходит ли этот документ под запрос:'. Эталонный алгоритм, пока документ влезает в условные 16к..32к токенов, даже слабые модели дают неплохой результат... только такой алгоритм очень дорогой и медленный

p.p.s.

а ведь его можно сделать еще лучше, для документов бОльшего размера, использовать скользящее окно с накоплением важной информации о документе в целом (контекстное окно: системный промпт, поисковый вопрос, накопленная выжимка по теме, скользящее окно из документа - системный промпт должен обязать собирать выжимку по теме, и давать оценку, подходит ли текущий кусок из документа под запрос или инет).

еще, не очень понимаю, как добавление предыдущего чанка к следующему поможет в ситуациях, когда важная информация находится буквально в начале документа... уже через 2-3 чанка она будет потеряна и не будет учитываться... например в начале документа описывается условие применимости (те же даты или особенности участников) всего документа целиком.

Ого, инновации! Ученые подсчитали: если сигнал с Земли о создании RAG-архитектуры и векторного поиска отправить в космос, то ровно через 10 лет он отразится от орбиты и долетит до офиса VK. С подключением!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
team.vk.company
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия
Представитель
Дмитрий Головин