Все потоки

Поисковые технологии *

От AltaVista до Яндекса

81

Рейтинг

СтатьиПостыНовостиАвторыКомпании

KonstantinSmith 6 часов назад

Модель почтовых адресов в реляционных БД

Средний

8 мин

6.1K

SQL * Поисковые технологии * Natural Language Processing *

Кейс

Почтовые адреса используют в реляционных БД, просто записывая их в одно текстовой поле или распределяя по отдельным полям типа город, улица, номер дома, корпус, квартира (возможно, вынося города и улицы в отдельные таблицы). В данной статье хочу поделиться одной моделью представления, которая коррелирует с моделью адресов ГАР ФИАС и позволяет выполнять широкий спектр действий с адресами средствами языка SQL.

Как известно, вручную написанные адреса обладают рядом неприятных свойств, затрудняющих их программное использование. Это и многовариативность написания одного и того же элемента, и пропуски, и искажения, и добавление лишнего. Идея состоит в том, чтобы выделить адресные элементы, нормализовать их, по возможности привязать к элементам ГАР ФИАС и сохранять в таблице БД не только нормализованные строки элементов адреса, но и GUID привязанных к ГАР элементов. При таком представлении возможно средствами SQL производить поисковые операции, находить дубликаты и пр., что затруднительно делать на исходных текстах адресов.

Данная модель применялась в проекте Досье компании Preferentum для системы загрузки и анализа неструктурированной и полуструктурированной информации (выгрузки разных баз и информационных систем). Для нормализации и привязки к ГАР используется SDK Pullenti Address, которое автор и разрабатывает.

Читать далее

+4

ig_novvv 8 часов назад

Почему ChatGPT называет одни бренды и молчит про другие: как машина знает компании

Средний

5 мин

5K

Поисковые технологии * Интернет-маркетинг * Контент и копирайтинг * Поисковая оптимизация *

Аналитика

Из песочницы

Я изучаю AEO/GEO (продвижение брендов в ответах нейросетей) и наткнулся на разбор про странную вещь: нейросети называют одни бренды и будто не замечают другие, причём качество продукта тут ни при чём (SearchAtlas). Объясняют это через понятие сущности: и поиск, и нейросети воспринимают бренд как отдельный объект знания со своими свойствами и связями.

Тема показалась любопытной, и я полез в первоисточники: доки Google, schema.org, Wikidata, замеры Ahrefs и Frase, пару работ с arXiv. Там и уткнулся в неожиданное. Знание о бренде у машины устроено двумя совершенно разными способами, и их постоянно путают. Один способ работает у обычного поиска Google, это Knowledge Graph. Другой у языковых моделей вроде ChatGPT, это память в весах нейросети.

Единого первоисточника у этого разбора нет, я собрал его из перечисленного под наш контекст, ссылки стоят по тексту. Дальше разложу оба механизма простым языком и покажу, что с каждым можно сделать.

Читать далее

+3

ideavi 3 июл в 14:24

Сопоставление каталогов продукции: автоматический массовый подбор с использованием токенизации

Простой

7 мин

7.2K

Поисковые технологии * Базы данных * Регулярные выражения * Big Data * Алгоритмы *

Кейс

Из песочницы

Задача широко знакома в узких кругах: наш каталог товаров встречается с каталогом контрагента — по сути одни и те же позиции, но названы по-разному. Надо найти совпадения и предоставить коллегам список подходящих наших артикулов для каждой их позиции.

В разобранном ниже случае это картриджи: 22 тысячи записей у контрагента против сотен тысяч наших номенклатур. Для такой задачи матерый программист берёт Elasticsearch, алгоритмы нечёткого поиска и тратит много времени, иногда в меру матерясь. Здесь подбор ведется с помощью токенизации, запросами в стиле no-code и без ИИ.

Токенизируем и сопоставляем

+4

Ja-gagarin 3 июл в 06:29

Мёртвый интернет начинается с нас: во что превращается GEO, когда важен только результат

6 мин

5.4K

Будущее здесьИнтернет-маркетинг * Контент и копирайтинг * Поисковые технологии * Управление медиа *

На днях в одном профессиональном чате по GEO вспыхнул показательный спор.

Поводом стала статья-обзор рынка, где, по мнению команды одного из сервисов, были неверно описаны возможности их платформы. Дальше разговор быстро вышел за пределы одной публикации. Потому что проблема здесь не только в конкретной статье и не только в конкретном сервисе. Проблема в том, как рынок вообще начинает работать с контентом в эпоху нейросетей.

Одна позиция звучит так: важен результат. Если статья дает видимость, индексируется, попадает в обсуждение и влияет на восприятие рынка, значит задача решена. А если какому-то сервису не нравится, как его описывают нейросети, значит ему надо лучше работать со своим присутствием в выдаче и в источниках.

Вторая позиция мне ближе. Если мы публикуем обзор, рейтинг или сравнение, где неверно описываем чужой продукт, это не просто “шероховатость”. Это ошибка в публичном источнике. И в 2026 году такая ошибка живет не только на странице сайта. Она начинает расходиться дальше: в пересказах, новых обзорах, подборках, ответах нейросетей и в общем цифровом фоне вокруг бренда.

Именно поэтому этот спор для меня важен. Он про то, куда вообще идет GEO как рынок.

Читать далее

+6

ManticoreSearch 3 июл в 04:04

Шардинг в Manticore Search: автоматическое распределение и репликация

20 мин

8.7K

Open source * Поисковая оптимизация * Поисковые технологии * Базы данных * Распределённые системы *

На старте поисковая система часто устроена просто: одна таблица на одном сервере. Это работает, пока не случится одно из двух. Либо отдельный запрос перестаёт задействовать весь CPU, за который вы заплатили, либо одного сервера перестаёт хватать — по объёму, по пропускной способности или просто потому, что сервер может выйти из строя, и данные на нём будут потеряны.

Автоматический шардинг, встроенный в Manticore Search и доступный начиная с релиза 27.1.5 , решает обе проблемы, разбивая таблицу на несколько физических фрагментов меньшего размера (шардов), по которым можно выполнять поиск параллельно и которые можно размещать на разных узлах:

Читать далее

+5

photonchikk 2 июл в 15:48

Сжатие декодерных эмбеддеров: как ужать 8B до продакшена без потери recall

Средний

13 мин

11K

Natural Language Processing * Open source * Искусственный интеллектМашинное обучение * Поисковые технологии *

Туториал

Декодерный эмбеддер 7–8B дает качество, но платит за него памятью, latency и деньгами.

Разбираем все оси сжатия - int8, int4, binary + rescoring, PQ, MRL-усечение - на реальных замерах recall@10: где деградация мягкая, а где обрыв. С воспроизводимым кодом и Colab-ноутбуком под Qwen3

Читать далее

+9

ManticoreSearch 2 июл в 14:22

Ускоренное построение KNN-индексов в Manticore

7 мин

9.7K

Open source * Поисковая оптимизация * Поисковые технологии * Базы данных * Алгоритмы *

Раньше построение KNN-индекса было самым медленным этапом при сохранении и слиянии чанков в таблицах с векторными атрибутами. Начиная с v27.1.5 , Manticore может задействовать несколько ядер CPU при сохранении чанков, слияниях через OPTIMIZE, авто-оптимизации и ALTER TABLE ... REBUILD KNN. На 16-ядерном Ryzen 9 5950X построение KNN-индекса для 1 миллиона 1536-мерных векторов сократилось с 8 минут до 39 секунд.

Читать далее

+5

AIgent_Smith 1 июл в 12:00

Как создавали нейропоиск Discovery AI — технологию для крупнейшей контентной базы в РФ

Сложный

9 мин

11K

Блог компании VKМашинное обучение * Алгоритмы * Поисковые технологии * Искусственный интеллект

Кейс

Привет! Меня зовут Евгений Астафуров, я ведущий разработчик в Отделе экспериментальных технологий AI VK. Мы разрабатываем Discovery AI — набор ИИ‑технологий для интеллектуального поиска, рекомендаций и взаимодействия с контентом. В него вошли нейропоиск, анализ контекста, персонализация, генеративные модели и рекомендательные алгоритмы, чтобы помогать пользователям находить нужную информацию, получать релевантные ответы и новый контент.

В этой статье подробно разберу архитектуру технологии нейропоиска в Discovery AI, которая объединяет большую языковую модель (LLM), поиск, инференс и данные многомиллиардной контентной базы VK. Технология становится важным компонентом развития рекомендательных и поисковых систем в наших продуктах и будет поэтапно внедряться в сервисы для пользователей, авторов и бизнеса (Дзен, VK, Медиапроекты Mail, VK Видео и другие).

Нейропоиск

+21

letsweb 29 июн в 09:39

Qwant: как Франция попыталась создать альтернативу Google

Простой

4 мин

7.9K

Блог компании Online patentПоисковые технологии * Патентование * Бизнес-модели * Поисковая оптимизация *

Ретроспектива

Qwant — редкий европейский поисковый проект, который сумел стать заметным за счет не технологического доминирования, а удачного позиционирования. Поисковик делает ставку на приватность: не хранит историю запросов, не продает персональные данные пользователей и размещает сервис в европейской инфраструктуре. При этом у компании есть собственный патентный портфель, который местами выглядит противоречиво на фоне ее ключевых принципов. Об истории создания Qwant мы сегодня и поговорим.

Читать далее

+12

alizar 29 июн в 07:01

Манипуляция ответами нейронок — как сеошники убивают интернет

Простой

7 мин

18K

Блог компании RUVDS.comПоисковая оптимизация * Поисковые технологии * Спам и антиспамУправление медиа *

Обзор

Мечта любого бизнесмена — чтобы в ответ на релевантный вопрос пользователя поисковая система (или нейронка) рекомендовала именно его товар. Нативно, без рекламы. Просто на первом месте поиска. А в случае LLM — как «правильный» и наиболее верный ответ, со ссылкой на сайт.

И так называемые «оптимизаторы» реализуют эту мечту. Они адаптируют контент сайта таким образом, что его можно продвинуть и «скормить» краулерам LLM.

Как сеошники прошлых лет ~~портили~~ оптимизировали контент старых сайтов, так оптимизаторы нового поколения наполняют Хабр текстами, которые пишутся для нейронок. Теперь это называется AEO (answer engine optimization) — оптимизация для AI-движков.

Читать далее

+70

ManticoreSearch 27 июн в 00:13

Manticore Search + systemd: современный подход к управлению

6 мин

9.6K

Поисковая оптимизация * Поисковые технологии * Open source * Linux * Системное администрирование *

Если вы запускаете Manticore Search на Linux, в качестве основного инструмента управления стоит выбрать systemd.

На текущий момент это общепринятая практика, хотя ранее существовали определённые ограничения. Да, Manticore Search мог работать под systemd, но интеграция обладала рядом функциональных ограничений. Архитектура демона основана на традиционных подходах Unix; systemd появился позже и хотел от службы совсем другого. Так что настройка работала, но не соответствовала современным требованиям к управлению службами.

Теперь Manticore Search поддерживает нативные уведомления systemd — это и есть главное изменение.

Почему это важно? Потому что устраняется ряд операционных проблем:

Читать далее

+7

ManticoreSearch 26 июн в 04:18

В 14 раз быстрее: как мы ускорили генерацию эмбеддингов в Manticore через ONNX

14 мин

9.5K

SQL * Поисковые технологии * Поисковая оптимизация * Open source * Базы данных *

Когда мы выпустили Auto Embeddings — функцию автоматического преобразования текстов в векторные представления — без развёртывания отдельного сервиса для работы с ML-моделью, — главный запрос пользователей касался скорости работы. Ранее для генерации эмбеддингов использовался только стек SentenceTransformers поверх Candle (Rust-рантайм Hugging Face для ML-инференса), и ресурсы CPU использовались далеко не полностью: в большинстве сценариев нагрузки показатель QPS держался на уровне нескольких десятков документов в секунду независимо от способа подачи данных, а параллельные запросы обрабатывались последовательно в рамках одной сессии модели.

Поэтому мы в течение нескольких недель оптимизировали механизм запуска ONNX-моделей в Manticore. Новый бэкенд ONNX Runtime доступен начиная с Manticore Search 27.1.5 . ONNX (Open Neural Network Exchange) — переносимый формат моделей, в котором уже публикуется большинство популярных open-source моделей для эмбеддингов: MiniLM, BGE, E5 и другие. В результате получилось решение, которое в среднем в 14 раз быстрее прежней реализации SentenceTransformers/Candle на том же оборудовании (обычный недорогой сервер с 16 ядрами / 32 потоками), с той же моделью и теми же весами, если усреднить по всей матрице замеров threads × batch, — и это преимущество сохраняется как при одном клиентском потоке, так и при тридцати двух. Предыдущая реализация во всём диапазоне нагрузок показывала 5–11 документов/с; новая реализация работает в диапазоне 70–230 документов/с.

Читать далее

+7

ManticoreSearch 24 июн в 09:33

Manticore Search 27.1.5: аутентификация, шардированные таблицы, диалоговый поиск и более быстрый векторный поиск

5 мин

7.9K

Поисковая оптимизация * Поисковые технологии * Базы данных * Open source *

Manticore Search 27.1.5 выпущен. Этот релиз приносит встроенные аутентификацию и авторизацию, шардированные таблицы, conversational search, более быструю сборку HNSW, улучшенные фасетирование и агрегации, а также длинный список исправлений в KNN, репликации, совместимости протоколов и других областях.

Этот пост - сводка всего, что вышло с 25.0.1 по 27.1.5.

Читать далее

+7

ManticoreSearch 23 июн в 11:04

Как мы ускорили KNN-поиск в Manticore: двухпроходный обход HNSW, пакетная обработка и AVX-512

6 мин

6.6K

Поисковая оптимизация * Поисковые технологии * Open source * Базы данных * Алгоритмы *

Кратко: Три изменения в HNSW-поиске ускоряют KNN-поиск до 29% при больших k и дают более 20% прироста при параллельной нагрузке. Без изменений API, без перестроения индексов и без новых настроек — просто более быстрый поиск.

Читать далее

+6

seoltru 22 июн в 15:34

Как промышленные компании попадают в ответы нейросетей: данные годового исследования в металлообработке и машиностроении

Простой

12 мин

10K

Интернет-маркетинг * Искусственный интеллектПоисковая оптимизация * Поисковые технологии *

Аналитика

Пока SEO-специалисты обсуждают теорию GEO-продвижения (Generative Engine Optimization), часть рынка уже вовсю получает трафик из ChatGPT, Perplexity и Алисы, и даже не всегда это замечает. Мы провели масштабное аналитическое исследование в промышленном кластере: металлообработка, машиностроение, заготовительное производство. Данные собирались около года. В этой статье я собрал конкретные цифры, неочевидные выводы и практические рекомендации: что именно делать, чтобы ваша компания появлялась в ответах нейросетей.

Читать далее

+8

ProfPearo 21 июн в 19:56

OSINT для новичков: что можно узнать из открытых источников

Простой

7 мин

15K

Google ChromeБраузерыИнформационная безопасность * Поисковые технологии *

Туториал

Разбираю базовые техники OSINT для новичков: как проверять телефон, email, домен, компанию и изображения через поисковики, реестры, веб-архивы и открытые сервисы.

Читать далее

+3

photonchikk 20 июн в 09:27

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Средний

8 мин

14K

Natural Language Processing * Open source * Искусственный интеллектМашинное обучение * Поисковые технологии *

Обзор

Из песочницы

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-encoder для реранкинга, какой-нибудь Qdrant сверху. Этим жили два года, и многие до сих пор так живут.

Но если посмотреть, кто реально гоняется в продакшене у команд, которые ушли вперёд, ландшафт другой. Энкодеров там почти нет. Эмбеддит файнтюненная LLM. Реранкер — тоже LLM. Инференс на SGLang, а не на ONNX. И вся обвязка перестроилась под это.

Эта статья про то, что поменялось и как переиспользовать этот стек у себя. Особенно если вы работаете в узком домене, где готовых датасетов нет.

Читать далее

+14

marmeladigital 19 июн в 20:12

Микроразметка на Tilda: внедрение JSON-LD, проверка и типовые ошибки

Средний

16 мин

11K

Поисковая оптимизация * Поисковые технологии * Веб-разработка * Веб-аналитика *

В этой статье разберу JSON-LD для сайтов на Tilda: что именно размечать, как разделять общий код и код конкретной страницы, где проверять микроразметку и какие ошибки чаще всего появляются после правок сайта.

Материал не про то, как скопировать готовый JSON из генератора. Такой вариант годится только для самых простых страниц.

На коммерческом сайте разметку лучше собирать от структуры: есть сайт, организация, конкретные страницы, услуги, статьи, контакты, изображения, хлебные крошки и вопросы.

Часть этих данных относится ко всему сайту, часть - только к одной странице.

Если это не разделить сразу, дальше начинаются дубли, старые URL, одинаковые схемы на всех страницах и странные предупреждения в валидаторах.

Для примеров возьму нейтральную нишу - учебный центр.

Читать далее

+3

Dvasch 17 июн в 09:04

AI‑агент для склада в Джеймикс. Часть 2: write‑tools, безопасность, метаданные

Средний

40 мин

7.1K

Блог компании HaulmontJava * Data Engineering * Искусственный интеллектПоисковые технологии *

Туториал

write‑tools, безопасность, метаданные

Это вторая часть статьи по Sping AI в Джеймикс. Короткая аннотация первой — на случай, если прошло время или вы её не читали: мы собрали read‑only агент внутри Джеймикс‑приложения. Пользователь задаёт вопрос на естественном языке; ChatClient из Spring AI крутит agent loop — дёргает @Tool‑методы, пока не наберёт достаточно данных для ответа. Каждый tool данные читает через DataManager с явным fetch plan‑ом, поэтому почти полностью остаётся внутри рамок системы безопасности Джеймикс и возвращает только нужные модели поля. UI — обычный Джеймикс‑вью, без REST‑прослойки. Также, в первой части мы убедились, что выбор модели — не деталь: модель без надёжного native tool calling ломает всю схему. Если первую часть не читали — начните с неё, код ниже строится как продолжение.

В этой части мы дадим агенту право менять данные. И вот здесь, в отличие от первой половины, начинают всплывать вопросы, которые ни Spring AI, ни большинство туториалов по агентам обычно не поднимают: под каким пользователем выполняется tool, что делать с транзакциями, как аудировать действия, инициированные моделью, и как заставить агента работать с вашей доменной моделью без ручного перечисления сущностей в промпте.

Это не косметические изменения, а ровно те решения, что отделяют демо от приложения, которое можно показывать заказчику.

Полный исходник всего, что мы здесь обсуждаем, лежит здесь: https://github.com/jmix‑edu/ai‑warehouse — можно клонировать и сразу запустить.

Что добавляем

Читать далее

+5

rdudov 16 июн в 12:12

Deep Research как управляемый исследовательский контур

Сложный

16 мин

9.6K

Блог компании СберМашинное обучение * Поисковые технологии *

Кейс

Deep Research часто описывают как «LLM с интернет-поиском». Однако если система просто делает несколько поисковых запросов, читает часть выдачи и пишет ответ, то она упускает несколько важных аспектов, без которых невозможно полноценное исследование.

В настоящем глубоком исследовании, помимо доступа к актуальным источникам, важен и сам исследовательский процесс: понять исходный вопрос, не потерять ограничения, разложить задачу на проверяемые части, собрать доказательную базу, отличить найденные факты от выводов модели, зафиксировать пробелы и собрать итоговый отчёт.

В этой статье мы расскажем о том, как решили задачу построения системы B2C Deep Research на основе Instruct-модели (GigaChat Ultra 3.1), в которой модель выполняет специфицированные задачи, а логика исследования реализована с помощью конвейера из набора ролей, условий завершения, циклов поиска и постепенного накопления контекста, подкреплённого цитатами. Так Deep Research становится не просто набором промптов с доступом к источникам в интернете, а управляемым исследовательским контуром.

Читать далее

+15

1

2 3 ...