Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

140,91

Рейтинг

СтатьиПостыНовостиАвторыКомпании

yrgreen 2 июн в 06:10

Автоматический отбор few_shot примеров для обучения модели

Средний

9 мин

5.2K

Data Engineering * IT-компанииPython * Алгоритмы *

Кейс

Из песочницы

Справочники МТР на крупных предприятиях ‒ это десятки тысяч строк вида «Кабель ВВГнг 3х2.5 кв.мм, серая изоляция, 100м», которые нужно разложить по атрибутам (тип, сечение, длина, цвет изоляции). Дубли, ошибки, разнородные форматы от разных поставщиков, почему это больная тема, а также подходы и методы решения, подробно разобраны в этой статье.

Читать далее

0

slwr66 1 июн в 13:46

Масштабируемость ML-алгоритмов при увеличении вычислительных ресурсов

Простой

5 мин

6.7K

Data Engineering * Python * Алгоритмы * Машинное обучение *

Из песочницы

В данной статье рассмотрено 5 разных алгоритмов машинного обучения, с наглядным сравнением их скорости работы на разном количестве аппаратных ресурсов.

Читать далее

+4

it-calm 1 июн в 12:21

Единая база данных гостей для ресторанной сети: интеграция Telegram, Remarked, IIKO, RocketData и платёжных систем

7 мин

6.1K

Big Data * Клиентская оптимизация * Базы данных * Data Engineering * Искусственный интеллект

В ресторанных сетях данные о гостях часто распределены между несколькими системами. Бронирования хранятся в одном сервисе, чеки — в ресторанной учётной системе, переписки — в мессенджерах, отзывы — в агрегаторах, данные приложения — в отдельной базе, платежи — у эквайринга.

Такая архитектура усложняет работу с клиентским профилем. У бизнеса нет единой истории взаимодействия с гостем, менеджеры работают с фрагментами данных, а сервис, маркетинг и аналитика опираются на неполную картину. Для ресторанной сети это напрямую влияет на персонализацию, качество обслуживания, LTV и повторные визиты.

В проекте для сети из 10 ресторанов была реализована единая база данных гостей. Задача системы — собрать в одном профиле все взаимодействия клиента с бизнесом: от первого контакта и переписки до бронирований, чеков, отзывов, оплат, технических инцидентов и повторных визитов.

Читать далее

+1

ArgusXII 31 мая в 17:39

ЕСППД-ИИ. Как описывать бизнес-процессы для работы с искусственным интеллектом

Средний

24 мин

9.5K

Data Engineering * IT-стандарты * Алгоритмы * Бизнес-модели * Искусственный интеллект

Мнение

Я руковожу компанией, которая с 2012 года занимается описанием бизнес-процессов и внедрением систем класса ERP. За это время мы не раз сталкивались с одной и той же проблемой: бизнес-процесс вроде бы можно описать словами, можно нарисовать схему, можно составить таблицу операций, но в момент проверки выясняется, что документ не держит реальное исполнение. В нём не хватает предметов, состояний, источников, ролей, переходов, прикладных носителей, исключений и проверок. Такой документ выглядит убедительно, но не позволяет понять, как именно процесс должен работать в системе и как его проверить.

Когда появились LLM, эта проблема стала заметнее. Большая языковая модель умеет быстро собрать красивый текст, но если ей не дать структуру, она начинает достраивать недостающие связи сама. Она может придумать роли, маршруты, статусы и действия, которые выглядят правдоподобно, но не подтверждены предметной областью. Поэтому в какой-то момент стало ясно: для работы с ИИ недостаточно хорошего промпта. Нужна система документации, в которой предметная область описана так, чтобы человек мог её проверить, а ИИ мог на неё опираться.

Так возникла ЕСППД-ИИ — Единая система процессно-предметной документации для искусственного интеллекта. Это наш внутренний стандарт работы с документацией, а не государственный ГОСТ, не рекламный продукт и не название компании. В этой методичке я объясняю не все технические детали стандарта, а человеческий маршрут: как начать описывать бизнес-процессы так, чтобы с ними мог работать искусственный интеллект и чтобы результат не превращался в имитацию.

Читать далее

+2

AkaMikhelson 31 мая в 14:01

Data-функция не работает вместо вас

Простой

10 мин

8.1K

Big Data * Data Engineering * IT-компанииАнализ и проектирование систем *

Мнение

-Gartner прогнозирует, что 80% инициатив в управлении данными провалятся к 2027г.

-MIT подводит статистику - 95% AI-проектов не срабатывают и основная причина - незрелость компаний в работе с данными.

-Chief Data Officer, высший руководитель функции управления данными, живёт в компании в среднем 30 мес.(2.5 года) Логично, что руководитель функции, инициативы которой проваливаются достаточно быстро выгорает.

Поговорим о причинах.

Думаю, причина этой статистики одна - заблуждение в сути работы с данными и AI.

Соблазнительно считать, что данные будут работать вместо вас, AI агент заменит сотрудников. Но они работают только вместе с вами.

Читать далее

+4

ArgusXII 29 мая в 21:49

Вайбаналитика: как я учил LLM описывать бизнес-процессы, а не имитировать их

11 мин

17K

1С * Data Engineering * Microsoft ExcelАнализ и проектирование систем * Искусственный интеллект

Мнение

Опыт ERP-архитектора: почему ChatGPT сначала выдавал красивые, но непроверяемые процессы — и почему решение оказалось не в промптах, а в предметной модели, технологической последовательности и проверяемых артефактах.

Читать далее

+16

OpenClaw_Lab 29 мая в 11:06

Как оценивать ИИ‑агентов в проде: нижняя планка, трассы и кодовые проверки

Средний

11 мин

6.4K

Тестирование IT-систем * Open source * Data Engineering * Базы данных *

Туториал

Если агент уже ходит в инструменты, читает документы, меняет состояние системы и принимает часть решений сам, проверка одного промпта почти ничего не говорит о надежности. Нужно смотреть на весь путь: вход, найденный контекст, вызовы инструментов, промежуточные состояния, итоговый ответ и побочные эффекты. Ниже - рабочая схема, как строить такие проверки до релиза и после выхода в прод.

Читать далее

+9

Zazha 29 мая в 08:35

Медленные запросы в Impala: как анализировать profile и не выносить SQL наружу

Средний

7 мин

4.8K

Hadoop * Big Data * Data Engineering *

Обзор

Из песочницы

Когда Impala-запрос начинает выполняться заметно дольше обычного, первое место, куда обычно идут смотреть - query profile, то есть профиль запроса. Там есть план выполнения, счетчики, оценки кардинальности, память, scan-часть, exchange, admission, хвосты по backend-ам и другая полезная информация.

Проблема в том, что текстовый profile не слишком удобный для анализа. Он большой, в нем много повторяющихся секций, часть сигналов видна только в связке с другими счетчиками. При этом почти всегда внутри есть чувствительная информация: SQL-текст, имена таблиц и колонок, пользователи, resource pools, хосты, фрагменты топологии выполнения.

Поэтому на практике появляются два привычных варианта:

Разбирать profile руками.

Скопировать SQL и profile в LLM и попросить объяснить, что не так.

Первый вариант надежнее, но требует времени и опыта. Второй удобнее, но плохо контролирует границу: какие данные ушли наружу, какие факты модель взяла за основу и где заканчивается диагностика, а где начинается ~~галлюцинация~~ догадка.

Читать далее

+1

Anton_Trofimov 29 мая в 06:10

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Средний

9 мин

7.6K

Искусственный интеллектМашинное обучение * Data Engineering * Поисковые технологии *

Из песочницы

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный контекст, передать его модели и получить более точный ответ.

На уровне идеи это действительно выглядит логично.

Но в реальной системе RAG — это не только способ обогатить ответ. Это отдельный операционный слой, который влияет на задержку, размер prompt, количество input tokens, стоимость запроса, качество ответа, SLA и требования к наблюдаемости системы.

Я хотел посмотреть на это не в формате общих рассуждений, а на небольшом локальном стенде: где именно появляется дополнительная нагрузка, какие параметры сильнее всего влияют на latency, почему больше контекста не всегда означает лучшее качество и почему стратегия retrieval должна зависеть от типа вопроса и структуры данных.

Это не промышленный benchmark и не попытка получить универсальные цифры. Скорее серия контролируемых экспериментов: посмотреть на механику RAG pipeline и компромиссы, которые часто остаются за кадром, когда RAG описывают просто как «поиск + LLM».

Читать далее

+5

nlaik 27 мая в 07:31

Как за один вечер я написал сервис инвентаризации оргтехники для филиальной сети из 16 локаций

Средний

11 мин

7.8K

Проектирование API * Python * Data Engineering * Искусственный интеллект

Кейс

Знакомая работает в IT-департаменте организации с 16 филиалами и ~5000 единиц оргтехники на балансе. Попросила: “Сделай сервис, чтобы загрузить фотку шильдика, и он сказал, у кого эта железка стоит”. Звучит просто. На практике это вылилось в production-сервис с распознаванием по фото через Claude vision, ETL из бухгалтерских .xls (привет, xlrd 1.2), нормализацией грязных инвентарных номеров и автопушем в Google Sheets. Рассказываю про все грабли — от deadlock pandas vs xlrd до бага, который считал две разные железки одной

Читать далее

+5

O-Rogova 26 мая в 13:08

Архитектурный тупик корпоративного хранения: почему смена модели не снимает ограничений и что с этим делать

8 мин

8.2K

Блог компании MIND SoftwareData Engineering * IT-инфраструктура * Базы данных *

Аналитика

История корпоративных систем хранения данных – это путь от жестко специализированных «черных ящиков» к гибким программным платформам. Каждый шаг этой эволюции решал проблемы прошлого, но неизбежно порождал новые противоречия. Сегодня, столкнувшись с радикальным усложнением инфраструктур (от классических ЦОД до частных облаков и объектов КИИ), – отрасль оказалась в точке, где наследие прошлых архитектурных решений стало главным ограничением для будущего. Современная корпоративная инфраструктура перестала быть монолитом. Сегодня это спектр архитектур и моделей потребления, каждая из которых предъявляет уникальные требования к системе хранения данных. С одной стороны - классические ЦОД с четким разделением ролей, ручным управлением и наследием в виде дорогих специализированных массивов. С другой - динамичные частные облака и гибридные среды, где инфраструктура должна предоставляться как сервис, масштабируясь по требованию и работая в условиях множества платформ. Между ними - гиперконвергентные кластеры, среды для критичных приложений (СУБД, VDI) и инфраструктура объектов КИИ, где на первый план выходят экстремальная производительность, отказоустойчивость и соответствие регуляторным требованиям. Все это многообразие объединяет одно требование: система хранения сегодня должна одинаково хорошо работать везде, будь то классический ЦОД или частное облако.

Читать далее

0

AivanF 26 мая в 09:00

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Средний

13 мин

6.8K

Python * Data Engineering * Big Data * Базы данных * Open source *

Обзор

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста.

Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными.

Давайте разбираться!

0

Moxovich 26 мая в 08:30

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Средний

12 мин

8K

Big Data * Python * Data Engineering * Data Mining * Звук

Аналитика

Из песочницы

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее

+3

diasoft 25 мая в 13:00

OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling

11 мин

7.4K

Блог компании ДиасофтПрограммирование * Хранение данных * IT-инфраструктура * Data Engineering *

Привет, Хабр!

Это Андрей Ловлин, руководитель команды «Фабрика данных. Платформа» компании Диасофт. В предыдущей статье мы рассказывали про S3 Архипелаг – слой хранения для нашей «Фабрики данных» (Digital Q.DataFactory). Сегодня речь пойдет о другой задаче: построение конвейера интеллектуального распознавания документов, загружаемых в нашу «Фабрику данных».

PDF-файлы, сканы, фотографии договоров – все это накапливается в организациях годами. Для построения RAG-систем и работы с LLM эти данные необходимо извлечь из неструктурированных документов и преобразовать в структурированный формат. Задача, на первый взгляд, тривиальная. На практике – не совсем.

Читать далее

+1

Nikita_Vasilevskiy 25 мая в 09:13

Как мы построили сквозную аналитику в Power BI

4 мин

8.8K

Визуализация данных * Веб-аналитика * Data Engineering * MySQL *

Кейс

Всем привет! Меня зовут Никита и я CEO компании VSL-BI. Мы занимаемся внедрением BI-аналитики.

К нам обратилась компания из сферы продажи стройматериалов. Они активно работали с рекламой в Яндекс Директ и Google Ads (клиент вел деятельность в Казахстане), следили за аналитикой сайта в Яндекс Метрике, в качестве CRM использовали Битрикс24.

Читать далее

0

AstahovaAnna 21 мая в 08:20

Сколько телефонов и планшетов продали партнёры: единое хранилище данных для бренда электроники

3 мин

6.8K

Блог компании ИТ-интегратор Белый код1С * Data Engineering * Анализ и проектирование систем * Хранение данных *

Кейс

На связи Анна Астахова, коммерческий директор ИТ-интегратора «Белый код». В компаниях с развитой сетью партнеров топ-менеджерам нужны оперативные данные. А отчеты в Excel тормозят работу. Сегодня рассказываю, как можно организовать и настроить единое хранилище данных на примере компании с широкой партнёрской сетью в сфере электроники.

Читать далее

0

sproshchaev 21 мая в 06:51

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Сложный

8 мин

7.9K

Блог компании OTUSКарьера в IT-индустрииData Engineering * Искусственный интеллект

Кейс

Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси?

В этом туториале — реальная архитектура low‑latency инференса на high‑load: почему изолированный inference‑bundle вместо монолита, как выбрать между vLLM и SGLang без маркетинга, зачем нужны continuous batching и admission control.

Читать разбор

+6

VasiliyS178 19 мая в 08:59

Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

Средний

11 мин

8.2K

Блог компании X5 TechData Engineering * SQL * Big Data * Open source *

Туториал

Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам.

Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем:

— строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python;

— попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты;

— напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.

Читать далее

+9

anvih 18 мая в 09:03

Метан: как data governance и ИИ вместе создают интерфейс к данным

Средний

10 мин

8.6K

Блог компании МТСSQL * Data Engineering * Машинное обучение * Искусственный интеллект

Кейс

Хабр, привет! Меня зовут Андрей Вихров, я создавал аналитические системы и внедрял data governance (DG) в крупных компаниях больше 15 лет, а сейчас занимаюсь метаданными в Data Office МТС. Тема порядка в данных для меня не нова, а какие выгоды можно извлечь из нее сегодня — стоит отдельного рассказа.

В компании накоплен огромный массив данных — только в дата‑каталоге зарегистрировано более 500 тысяч таблиц. С ними ежедневно работают сотни специалистов: от продуктовых аналитиков до инженеров данных, строящих витрины для ML‑моделей.

Но в каталоге описаны в основном таблицы — их назначение, поля, владельцы, а вот терминов и тем более их связей на порядок меньше. И это объяснимо: формировать термины сложнее, в производственный процесс они вписываются с трудом, а польза от них неочевидна.

Поэтому каталог чаще всего помогает находить описания по уже известной таблице, но не ответы на конкретные бизнес‑запросы. С ними аналитику все равно приходится разбираться самому, изучая материалы и консультируясь с коллегами, что отнимает много времени.

Логичный выход — автоматизировать процесс. Но если опытный аналитик справляется (рано или поздно) с задачей в существующих условиях, то ИИ‑агент этого сделать уже не сможет, поскольку опирается только на метаданные.

В нашем случае сложились два фактора. За годы работы над DG мы накопили экспертизу в описании и структурировании метаданных. А появление LLM дало возможность создавать семантические слои на промышленной основе и использовать их для ответа на вопросы пользователей. Объединив одно с другим, мы создали и пилотируем систему Метан (метаданные + аналитика).

Читать далее

+14

select_zvezdo4ka_from 18 мая в 06:37

ClickHouse не тормозит, но не умеет в DML. Часть 2. Append-only

2 мин

6.9K

Карьера в IT-индустрииБазы данных * Big Data * Data Engineering * Учебный процесс в IT

Туториал

Append-only — целебная пилюля для ClickHouse, без которой он скорее обуза, нежели буст для бизнеса. Разберем что это, и как этим пользоваться.

Читать далее

0

3

4 5 ...