Базы данных *

Все об администрировании БД

228,16

Рейтинг

СтатьиПостыНовостиАвторыКомпании

ideavi 3 июл в 14:24

Сопоставление каталогов продукции: автоматический массовый подбор с использованием токенизации

Простой

7 мин

7.2K

Поисковые технологии * Базы данных * Регулярные выражения * Big Data * Алгоритмы *

Кейс

Из песочницы

Задача широко знакома в узких кругах: наш каталог товаров встречается с каталогом контрагента — по сути одни и те же позиции, но названы по-разному. Надо найти совпадения и предоставить коллегам список подходящих наших артикулов для каждой их позиции.

В разобранном ниже случае это картриджи: 22 тысячи записей у контрагента против сотен тысяч наших номенклатур. Для такой задачи матерый программист берёт Elasticsearch, алгоритмы нечёткого поиска и тратит много времени, иногда в меру матерясь. Здесь подбор ведется с помощью токенизации, запросами в стиле no-code и без ИИ.

Токенизируем и сопоставляем

ManticoreSearch 3 июл в 04:04

Шардинг в Manticore Search: автоматическое распределение и репликация

20 мин

8.7K

Open source * Поисковая оптимизация * Поисковые технологии * Базы данных * Распределённые системы *

На старте поисковая система часто устроена просто: одна таблица на одном сервере. Это работает, пока не случится одно из двух. Либо отдельный запрос перестаёт задействовать весь CPU, за который вы заплатили, либо одного сервера перестаёт хватать — по объёму, по пропускной способности или просто потому, что сервер может выйти из строя, и данные на нём будут потеряны.

Автоматический шардинг, встроенный в Manticore Search и доступный начиная с релиза 27.1.5 , решает обе проблемы, разбивая таблицу на несколько физических фрагментов меньшего размера (шардов), по которым можно выполнять поиск параллельно и которые можно размещать на разных узлах: