Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

106,25

Рейтинг

СтатьиПостыНовостиАвторыКомпании

TSjB 1 час назад

Как мы научили большую языковую модель говорить на карачаево-балкарском

Средний

11 мин

2.3K

Natural Language Processing * Искусственный интеллектМашинное обучение *

Кейс

Давно ничего не писал где-либо: разработка занимает много времени. Надеюсь, наш путь будет кому-либо полезен, особенно тем, кто обучает модельки на малоресурсных языках.

Большая в данном контексте - это условно. По сути, взяли Qwen3-4B-Instruct-2507 и обучили на карачаево-балкарском языке (тюркский, половецко-кыпчакская группа). По дороге пришлось написать собственный морфологический процессор для аугментации диалектов, обучить токенизатор с нуля, и найти баланс в обучении модели на сырых данных, чтобы она не забывала инструкций (а хотелось, чтобы могла отвечать).

Модель лежит на HuggingFace: TSjB/QM-4B. Работу представляли на конференции TurkLang 2026

Читать далее

+3

KonstantinSmith 5 часов назад

Модель почтовых адресов в реляционных БД

Средний

8 мин

5.6K

SQL * Поисковые технологии * Natural Language Processing *

Кейс

Почтовые адреса используют в реляционных БД, просто записывая их в одно текстовой поле или распределяя по отдельным полям типа город, улица, номер дома, корпус, квартира (возможно, вынося города и улицы в отдельные таблицы). В данной статье хочу поделиться одной моделью представления, которая коррелирует с моделью адресов ГАР ФИАС и позволяет выполнять широкий спектр действий с адресами средствами языка SQL.

Как известно, вручную написанные адреса обладают рядом неприятных свойств, затрудняющих их программное использование. Это и многовариативность написания одного и того же элемента, и пропуски, и искажения, и добавление лишнего. Идея состоит в том, чтобы выделить адресные элементы, нормализовать их, по возможности привязать к элементам ГАР ФИАС и сохранять в таблице БД не только нормализованные строки элементов адреса, но и GUID привязанных к ГАР элементов. При таком представлении возможно средствами SQL производить поисковые операции, находить дубликаты и пр., что затруднительно делать на исходных текстах адресов.

Данная модель применялась в проекте Досье компании Preferentum для системы загрузки и анализа неструктурированной и полуструктурированной информации (выгрузки разных баз и информационных систем). Для нормализации и привязки к ГАР используется SDK Pullenti Address, которое автор и разрабатывает.

Читать далее

+4

Korridzy 7 часов назад

Гибель богов. Fable и ещё 10 LLM реорганизуют код. Сравнение

Сложный

31 мин

5K

Проектирование и рефакторинг * Искусственный интеллектМашинное обучение * Python * Natural Language Processing *

Аналитика

Из песочницы

Это подробный разбор одного эксперимента. Я взял god node из реального LangGraph агента и попросил 5 американских и 6 китайских моделей сначала предложить, как её распутать, а потом оценить предложения друг друга. Дальше тремя разными способами пытался понять, кому из них в этом деле верить.

Читать далее

+7

varvaratikh 11 часов назад

Библиография тоже умеет галлюцинировать: что изменилось после защиты диплома

Средний

9 мин

4.5K

Машинное обучение * Natural Language Processing * Python * Data Engineering * Научно-популярное

Кейс

После защиты диплома я доработала систему проверки библиографических источников: добавила OCR, кэширование, offline-режим, классификацию ошибок, внешние проверки и ML-модули. В статье разбираю, как устроен пайплайн, почему одного DOI недостаточно, какие метрики удалось получить и почему проверка списка литературы оказалась не формальностью, а отдельной инженерной задачей.

Читать далее

+7

AGmind вчера в 18:53

Как я обучил русский RAG‑сплиттер, который режет документы по индексам, а не по тексту

Средний

22 мин

13K

Машинное обучение * Natural Language Processing * Open source * Искусственный интеллект

TL;DR. Из интереса обучил собственный русский RAG‑сплиттер — захотелось проверить, можно ли сделать context‑aware‑нарезку русских документов лучше готовых чанкеров.

Я взял идею датской context-aware-splitter, пересобрал её под русский на базе T-lite-it-2.1 и изменил главное: модель возвращает индексы границ, а не переписанный текст. Хост потом режет оригинал по этим индексам.

У index‑output оказалось три практических плюса:

Читать далее

+11

malyazin_2010 3 июл в 10:14

Запускаем LLM локально на майнинг ферме из 4 GPU

3 мин

11K

DevOps * DIY или Сделай самGPGPU * Natural Language Processing * Видеокарты

Кейс

В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).

В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.

Читать далее

+23

photonchikk 2 июл в 15:48

Сжатие декодерных эмбеддеров: как ужать 8B до продакшена без потери recall

Средний

13 мин

11K

Natural Language Processing * Open source * Искусственный интеллектМашинное обучение * Поисковые технологии *

Туториал

Декодерный эмбеддер 7–8B дает качество, но платит за него памятью, latency и деньгами.

Разбираем все оси сжатия - int8, int4, binary + rescoring, PQ, MRL-усечение - на реальных замерах recall@10: где деградация мягкая, а где обрыв. С воспроизводимым кодом и Colab-ноутбуком под Qwen3

Читать далее

+9

andrivasg 30 июн в 11:30

Harness Bench: как оценить агентский harness и выбрать связку с моделью

12 мин

8.9K

Блог компании red_mad_robotNatural Language Processing * Python * Open source *

Привет! Я Андрей Иванов, NLP-исследователь в R&D-лаборатории red_mad_robot.

Когда мы собираем AI-агента, первым делом выбираем модель под задачу. Но в реальном приложении она не работает в одиночку, ей нужен агентский harness — программная обвязка. Поэтому выбирать приходится не просто модель, а связку «модель + harness».

Чтобы делать этот выбор осознанно, мы создали Harness Bench — открытый фреймворк, который тестирует связки на реальных задачах в одинаковых условиях. В статье расскажу, как он устроен, разберу баги опенсорсных обвязок, которые ломают автоматический прогон, а потом покажу на цифрах, как смена harness влияет на способности одной и той же модели.

Читать далее

+15

Mefodiytr 29 июн в 14:25

Как голосовой ИИ-агент врал клиентам, путал звонящих и подделывал собственный голос — и как это чинится

Средний

9 мин

8.1K

Asterisk * Python * Искусственный интеллектNatural Language Processing * ReactJS *

Кейс

Из песочницы

За три месяца наш голосовой ИИ-агент успел соврать клиенту про несуществующего администратора, принять всех звонящих за одного человека и месяц выдавать обычный синтез за "клонированный голос". Разбираю, почему это лечится структурой кода, а не промптом — на полностью российском стеке.

Читать далее

+10

Staurus 28 июн в 13:01

ContentCombine: как я сделал мультинишевый контент-комбайн и запустил ежедневный SEO-дайджест

Средний

24 мин

10K

Python * Искусственный интеллектNatural Language Processing * Data Engineering * Поисковая оптимизация *

Кейс

Я сделал ContentCombine — мультинишевый контент-комбайн, который собирает материалы из RSS, Telegram, сайтов и других источников, нормализует их, считает скор, склеивает повторы в сюжеты, отделяет кейсы от шума и готовит ежедневный дайджест. Сначала движок работал на игровых новостях, потом я перенёс его на SEO и AI — без переписывания ядра, но с кучей неожиданных граблей: entity blobs, старые статьи под видом свежих, молчащие фиды, ложные тренды и LLM-недетерминизм в проде.

Читать далее

+7

chasing_nlp 25 июн в 12:43

LLM Sandbox: пример реализации агента с песочницей [часть 2, практика]

Средний

8 мин

10K

Искусственный интеллектNatural Language Processing * Информационная безопасность * Машинное обучение * DevOps *

Туториал

Статья посвящена практической реализации агента с изолированной средой исполнения кода. Рассказываю как устроен агент, который пишет и исполняет код в Docker песочнице.

Это вторая часть серии про LLM Sandbox. В первой части мы разобрали риски исполнения кода от LLM, ограничения песочницы, способы изоляции (Docker, Wasm, gVisor, microVM) и минимальную архитектуру агент+песочница.

Код реализации агента, skills, полные логи и артефакты примера — в открытом GitHub-репозитории.

Читать далее

+7

renkow 25 июн в 07:02

Как мы ускоряли диффузионный декодер TTS

11 мин

9.2K

Блог компании ЯндексМашинное обучение * Алгоритмы * Natural Language Processing * Клиентская оптимизация *

В пайплайне перевода видео в Яндекс Браузере скорость работы в синтезе речи долго оставалась узким местом: одно видео — это сотни фраз, каждая генерируется отдельно, и любая сэкономленная миллисекунда становится заметной в масштабах сервиса.

Внутри TTS работает каскад из трёх компонентов: языковая модель предсказывает аудиотокены по тексту, диффузионный декодер восстанавливает мел‑спектрограмму из латентов, а вокодер превращает её в звуковую волну. Долгое время самой тяжёлой была языковая модель, но после её оптимизации на первый план вышел декодер латентов — его forward pass запускается на каждом шаге семплинга диффузии, а шагов — десятки. Именно его мы и взялись ускорять.

Читать далее

+33

abletobetable 24 июн в 15:38

Топ вопросов с NLP собеседований: GPT, стратегии генерации текста и метрики оценки LLM

Средний

17 мин

11K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

На NLP/LLM-собеседованиях часто проверяют не то, знаешь ли ты слова top-k, top-p и BLEU, а понимаешь ли ты, что происходит с распределением вероятностей, почему greedy decoding зацикливается, зачем нужна temperature и почему BLEU плохо оценивает ответы современных LLM.

В этой статье - чеклист по языковому моделированию, стратегиям генерации и метрикам качества. Это не полноценная лекция с нуля, а тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.

Читать далее

+4

snakers4 24 июн в 07:13

Как мы разрабатывали TTS для Ил-2 Штурмовик

Средний

12 мин

9.7K

Машинное обучение * Разработка игр * Natural Language Processing * Голосовые интерфейсы *

Кейс

Так получилось, что нам посчастливилось принять участие в разработке синтеза для новой версии игры "Ил-2 Штурмовик". Это был длинный путь, но в итоге у нас получилось:

Что получилось?

+16

artarasov 23 июн в 05:10

Evals: что должен знать каждый AI-инженер в 2026

Средний

9 мин

8.3K

Машинное обучение * Искусственный интеллектNatural Language Processing * Тестирование IT-систем *

Аналитика

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили всего лишь найти дешевые яйца, сам купил их на Instacart на $31.43 – в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability», где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка.

Ни один из этих случаев не всплыл бы в обычном демо. И ни один бенчмарк про них заранее бы не предупредил.

Публичные бенчмарки полезны – по ним видно, какая модель в целом сильнее и куда движется фронтир. Но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи. А часть аспектов – безопасность, устойчивость к злоупотреблениям, поведение под атакой – бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система – это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.

Читать далее

+5

shizouna 22 июн в 11:40

Айсберг использования AI, или как сохранить рабочее место

Средний

79 мин

8.5K

Искусственный интеллектМашинное обучение * Natural Language Processing * Программирование * Карьера в IT-индустрии

Туториал

Из песочницы

Привет, Хабр! Мне грустно читать посты о том, как руководители давят на сотрудников по ускорению интеграции AI в рабочие процессы и ставят строгие KPI.

Я был в такой же ситуации, когда где-то полгода назад ко мне подошёл менеджер и спросил: «Вань, а как у нас там с AI?», на что я ответил: «Ээээ... у нас всё хорошо))» и понял, что нужно максимально быстро вкатываться в современные инструменты и искать информацию, чем я и поделюсь с вами в этой статье.

Знакомо? Не переживайте, мы всё обязательно рассмотрим. К середине статьи мы научимся всем современным основам Claude Code, а к концу построим мультиагентную систему на очень интересном примере.

Читать далее

+12

Ussper 22 июн в 09:30

Что под капотом у ИИ-агента для отдела продаж: архитектура, код и грабли

Средний

14 мин

5.9K

Natural Language Processing * CRM-системы * Управление продажами * Искусственный интеллект

Обзор

Из песочницы

«ИИ-агент для продаж» на демо выглядит как одна кнопка: подключил, и он сам слушает звонок и ставит задачу в CRM. В проде между этими двумя точками десяток слоёв, и в каждом всё тихо ломается. Разбираем пайплайн целиком: распознавание и диаризация на телефонном звуке 8 кГц, извлечение фактов с проверкой каждого вывода против расшифровки, запись в CRM без дублей и потерь, действия наружу через MCP вместо хрупкого браузера, контроль качества на сотне размеченных звонков. Везде код, реальные цифры и грабли из боевого режима.

Читать далее

+5

danyakr 21 июн в 22:53

RAG не только для вопросов и ответов: почему он естественно подходит для рекомендаций

Сложный

11 мин

12K

Машинное обучение * Natural Language Processing * Python *

Туториал

Retrieval-Augmented Generation (RAG) чаще всего рассматривается в контексте вопросно-ответных систем и чат-ботов поверх базы знаний. Большинство публикаций и руководств по RAG посвящено схеме «вопрос – ответ с опорой на документы». Однако внутренняя механика RAG – семантический поиск в сочетании с генерацией ответа на основе найденного – хорошо ложится и на другую задачу, которую традиционно решают иными методами: на рекомендации.

Цель настоящей статьи – показать, что RAG представляет собой недоиспользованный, но обоснованный инструмент для рекомендательных систем, и разобрать, на каких именно ограничениях классических рекомендателей он выигрывает и где проходят его границы. В качестве сквозного примера рассматривается рекомендательная система книг по запросу в свободной форме. При этом основным предметом рассмотрения является сам подход, а не конкретная реализация.

Читать далее

+3

photonchikk 20 июн в 09:27

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

Средний

8 мин

14K

Natural Language Processing * Open source * Искусственный интеллектМашинное обучение * Поисковые технологии *

Обзор

Из песочницы

Если вы строили RAG в 2023, ваш стек выглядел плюс-минус одинаково. BERT-семейство (BGE, e5) для семантики, BM25 для буквальных совпадений, cross-encoder для реранкинга, какой-нибудь Qdrant сверху. Этим жили два года, и многие до сих пор так живут.

Но если посмотреть, кто реально гоняется в продакшене у команд, которые ушли вперёд, ландшафт другой. Энкодеров там почти нет. Эмбеддит файнтюненная LLM. Реранкер — тоже LLM. Инференс на SGLang, а не на ONNX. И вся обвязка перестроилась под это.

Эта статья про то, что поменялось и как переиспользовать этот стек у себя. Особенно если вы работаете в узком домене, где готовых датасетов нет.

Читать далее

+14

m4deme1ns4ne 19 июн в 20:37

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Сложный

20 мин

12K

Natural Language Processing * Open source * Python * Искусственный интеллектМашинное обучение *

Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle: точность извлечения информации описывает U-образную кривую — высока на краях контекста и падает в середине; в наших условиях используются SLM, поведение которых так же описано в статье, и оно характеризуется выраженным забыванием не только из середины, но также и из начала контекста. Более того, на бюджете 8 ГБ VRAM single-call длинного транскрипта практически неприменим*, что делает декомпозицию не оптимизацией, а необходимым условием работоспособности.

Читать далее

+7

1

2 3 ...