Как создавали нейропоиск Discovery AI — технологию для крупнейшей контентной базы в РФ / Комментарии / Хабр

Вы проводили какую-то численную оценку качества вашего решения и как строили базу тестовых вопросов и ответов?

Вы пробовали сравнивать ваше решение с типовыми решениями 'на рынке', какой-нибудь opensource rag заточенный на работу с базой ваших документов?

p.s. попробуйте протестировать ваше решение на маленьком датасете, под сотню-другую документов, сравнивая с эталонным алгоритмом, который каждый документ целиком прогоняет через поисковый вопрос с системным промптом типа 'подходит ли этот документ под запрос:'. Эталонный алгоритм, пока документ влезает в условные 16к..32к токенов, даже слабые модели дают неплохой результат... только такой алгоритм очень дорогой и медленный

p.p.s.

а ведь его можно сделать еще лучше, для документов бОльшего размера, использовать скользящее окно с накоплением важной информации о документе в целом (контекстное окно: системный промпт, поисковый вопрос, накопленная выжимка по теме, скользящее окно из документа - системный промпт должен обязать собирать выжимку по теме, и давать оценку, подходит ли текущий кусок из документа под запрос или инет).

еще, не очень понимаю, как добавление предыдущего чанка к следующему поможет в ситуациях, когда важная информация находится буквально в начале документа... уже через 2-3 чанка она будет потеряна и не будет учитываться... например в начале документа описывается условие применимости (те же даты или особенности участников) всего документа целиком.

Как создавали нейропоиск Discovery AI — технологию для крупнейшей контентной базы в РФ

Комментарии 2

Информация