Big Data *

Большие данные и всё о них

168,41

Рейтинг

СтатьиПостыНовостиАвторыКомпании

protmaks 2 часа назад

Databricks Data and AI Summit 2026. Моя первая поездка в США

Простой

4 мин

3.9K

Data Engineering * Big Data * КонференцииDeveloper Relations * Облачные сервисы *

Репортаж

Недавно мне удалось посетить Data + AI Summit в Сан-Франциско в качестве Databricks MVP. Крупнейшую конференцию Databricks, посвященную данным, искусственному интеллекту. На мероприятии собралось более 30 000 участников из более чем 160 стран.

Я много слышал и читал об этом саммите, но никогда не мог представить, что попаду на его.

Все началось с того, что всем Databricks MVP предоставил бесплатный билет на мероприятие (стоимость билета без скидок около 1000$). Звучит конечно, здорово, но чтобы попасть нужна еще виза, билеты на самолёт и проживание в гостиннице. Хорошо хоть питание было организовано на самом мероприятии.

На удивление записаться на визу в Кракове и получить её оказалось довольно просто, запись за неделю и через 2 дня уведомление, что виза одобрена, круто!

Далее покупка билетов на самолёт примерно 1000$ в одну сторону и проживание в гостиннице около 150$ в сутки. К счатью моя компания приняла решние частично компенсировать расходы. Большое ей спасибо, возможно на тот момент я бы не решился поехать и выложить несколько тысяч долларов за мероприятие.

-2

Mastersland 7 часов назад

Как я написал сервис для анализа конкурсных списков вузов и моделирования зачисления по приоритетам

Простой

5 мин

4.2K

C# * .NET * Flutter * Анализ и проектирование систем * Big Data *

Обзор

Каждое лето сотни тысяч абитуриентов пытаются понять одну простую вещь:

Поступлю я или нет?

Казалось бы, все данные открыты. Вузы публикуют конкурсные списки, количество мест известно, правила приёма описаны на сайтах.

Но на практике ответить на этот вопрос гораздо сложнее, чем кажется.

Именно из этой проблемы вырос проект AbitList.

Сайт: https://abitlist.ru

-4

varvaratikh вчера в 17:36

GitHub стал однообразнее после появления ChatGPT?

Средний

11 мин

9.7K

Open source * GitHub * Искусственный интеллектBig Data *

Аналитика

После появления ChatGPT и массового распространения GitHub Copilot, Cursor, Claude Code, Windsurf и других AI-инструментов разработка стала заметно быстрее. Код, тесты, README, комментарии и небольшие utility-функции теперь можно получить за секунды.

Но вместе с этим появился менее очевидный вопрос: если миллионы разработчиков используют похожие модели и похожие промпты, не становится ли открытый код более однообразным?

В этой статье я проверяю эту гипотезу на данных GitHub за 2019-2025 годы: через GH Archive, BigQuery, commit messages, README, имена функций и собственный GitHub Uniformity Index.

К исследованию

achekalin вчера в 10:31

Palantir и голые токены: как продать «суверенный ИИ» людям, которые не любят терять контроль

10 мин

7.7K

Системное администрирование * Серверное администрирование * Искусственный интеллектУправление продажами * Big Data *

Обзор

Palantir выложил в X пост, который журналисты быстро стали называть «манифестом». Формально это «The Technological Republic, in brief» — промо-выжимка из книги Алекса Карпа и Николаса Замиски The Technological Republic. Если перевести с языка подрядчика для армии, разведки и крупного бизнеса на обычный русский: не отдавайте свои данные поставщикам больших языковых моделей, не считайте внедрение ИИ по расходу токенов, держите у себя модели, следы работы системы и результаты дообучения.

Но важно, кто именно это говорит. Palantir вырос не из кружка любителей открытого ПО - компания продаёт софт для соединения данных, прав доступа, предметных моделей и действий оператора; сама она описывает свой рынок как решения «from the factory floors to the front lines». По годовому отчёту за 2025 год, 54% выручки Palantir пришло от государственных заказчиков, 46% — от коммерческих. Это не декоративный раздел "прочие красивые кейсы", а почти половина бизнеса.

Поэтому, когда такая компания заводит речь про «экономию на токенах», речь не о бережливости. Речь о новом слое контроля: где живут данные, кто управляет моделью, кто видит запросы, кто получает следы работы системы и кто потом становится обязательной частью всей этой конструкции.

Игра по-крупному

BHV_publishing 3 июл в 15:00

Новинка: «Инженерия данных. Паттерны проектирования»

3 мин

12K

Блог компании Издательство БХВПрограммирование * Big Data * Python * Профессиональная литература *

Приветствуем, Хабр.

Мы стараемся лицензировать в издательстве «O’Reilly» и переводить для вас фундаментальные книги, в том числе, по формирующимся парадигмам и подходам к разработке. Одним из наиболее успешных базовых изданий такого рода была книга «Основы инженерии данных» Джо Риса и Мэта Хоусли, вышедшая в середине 2024 года (допечатка – январь 2026). Желая развить эту тему, мы издали и вторую, возможно, не менее фундаментальную книгу «Data Engineering Design Patterns», которую написал для издательства «O’Reilly» Бартош Конечны. Русское издание вышло в конце июня и называется «Инженерия данных. Паттерны проектирования». Автор считает, что в дисциплине инженерии данных можно выделить такие же многоразовые и универсальные шаблоны проектирования типичных решений, как и в традиционном программировании. То есть, он берётся повторить в этой области фундаментальный труд «Банды четырёх», который в середине 1990-х привёл к появлению всем известной книги «Design Patterns». Ранее мы размещали статью с примерами вычленения паттернов проектирования в области инженерии данных — это был перевод, а оригинал статьи написал сам Бартош Конечны, собираясь обосновать готовящуюся книгу и очертить её тематическое поле. Под катом рассмотрим, какие именно темы вошли в новую книгу.

+22

ideavi 3 июл в 14:24

Сопоставление каталогов продукции: автоматический массовый подбор с использованием токенизации

Простой

7 мин

7.2K

Поисковые технологии * Базы данных * Регулярные выражения * Big Data * Алгоритмы *

Кейс

Из песочницы

Задача широко знакома в узких кругах: наш каталог товаров встречается с каталогом контрагента — по сути одни и те же позиции, но названы по-разному. Надо найти совпадения и предоставить коллегам список подходящих наших артикулов для каждой их позиции.

В разобранном ниже случае это картриджи: 22 тысячи записей у контрагента против сотен тысяч наших номенклатур. Для такой задачи матерый программист берёт Elasticsearch, алгоритмы нечёткого поиска и тратит много времени, иногда в меру матерясь. Здесь подбор ведется с помощью токенизации, запросами в стиле no-code и без ИИ.

Токенизируем и сопоставляем

PhystechGenesis 2 июл в 13:49

Шаг вперёд на долгом пути: завершили этап «Сканирование» конкурса «Экспедиция. Data Science»

7 мин

8.9K

Big Data * Data Engineering * Базы данных * Геоинформационные сервисы * Программирование *

Обзор

Recovery Mode

Фонд Национальной технологической инициативы реализует проект технологических конкурсов Up Great — открытых соревнований для инженерных команд. Здесь преодолевают технологические барьеры России и мира, чтобы решать задачи, с которыми ещё никто не справлялся.

Один из текущих конкурсов — «Экспедиция. Data Science» с технологическим партнёром Phystech.Genesis, который предоставляет платформу и маркетинг события. В конкурсе участники работают над системами ИИ по распознаванию археологических объектов на поверхности земли и глубине до 5 метров. Пока такую работу археологи делают вручную, что требует много времени и специалистов. Конкурс призван ускорить процесс и исключить человеческие ошибки, чтобы дать исторической науке новые возможности, а учёным — время на экспедиции и раскопки.

В рамках «Экспедиция. Data Science» — 3 конкурса отдельных заданий (КОЗ), а также финальный конкурс. С каждым следующим этапом команды берутся за более сложные задачи и пробуют новые подходы. Недавно организаторы объявили победителей второго из них — «Сканирование». На этом этапе команды создавали нейросети, чтобы искать археологические объекты в рельефе и под поверхностью земли.

В этой статье мы собрали заключения технических экспертов, комментарии профессионального археолога, а также поговорили с тройкой лидеров и одним из ведущих российских учёных по Data Science. Мы хотим рассказать вам, как технология и наука вместе развивают знание людей о мире в нашей стране.

Oleg_Nikishenkov 2 июл в 11:31

Достижима ли неинвазивная гармония человека и машины

Средний

19 мин

9.4K

Блог компании Leader-IDBig Data * БиотехнологииМедгаджетыМашинное обучение *

Интервью

Когда речь заходит о том, чтобы человек управлял своей бионической конечностью-протезом с помощью мозга, перед инженерами, врачами и пациентами встает сложный выбор. Имплантировать чип, получающий сигналы от мозга, непосредственно в голову пациента или наладить управление конечностью неинвазивно? В каждом из этих способов есть свои плюсы и минусы. При вживлении электродов в зону коры головного мозга, отвечающую за моторику, получается более мощный сигнал. Запись разрядов нейронов происходит напрямую, сигнал четкий, многоканальный. Он встречает меньше помех в виде костных тканей, мимики лица.

А при неинвазивном управлении уходят риски кровотечений, инфекций и отторжения. Устройство можно надеть и снять за минуту. Оно отлично подходит для реабилитации или когда операция противопоказана. Но при таком методе главным критерием становится четкость восприятия бионическим протезом сигнала от мозга. Все дело в шуме. Сигнал проходит через кости черепа и кожу, теряя силу. Датчики улавливают многочисленные помехи (моргание, напряжение мышц шеи). Есть потеря в скорости и точности: протез работает с небольшой задержкой, поэтому трудно выполнить задачу со сложной моторикой, например завязать шнурки.

Но есть хорошие новости для сторонников щадящего метода. Разберемся в них на примере одного из проектов, который усиливает сигнал с помощью интеграции в управляющую систему модуля компьютерного зрения, а также технологии дополненной реальности (AR).

+24

Sergey_petrich 2 июл в 08:36

Каталог данных: что нужно знать, прежде чем начинать внедрение

7 мин

7.2K

Блог компании VK TechБлог компании VKОблачные вычисления * Хранение данных * Big Data *

Объем данных в компаниях постоянно растет, и это вынуждает бизнес и ИТ-специалистов перестраивать ИТ-ландшафт, чтобы упростить поиск, понимание и использование информации. В качестве одного из компонентов подобных модернизированных реализаций нередко рассматривают дата-каталог, который помогает навести порядок в метаданных и сделать данные более доступными.

Вместе с тем хоть такой подход и имеет право на жизнь, но практика показывает, что наибольший потенциал каталоги данных раскрывают, когда их внедрению предшествует выстраивание базовых процессов управления: ответственности за данные, контроля качества и управления изменениями.

Меня зовут Сергей Петриченко. Я продуктовый менеджер VK Data Platform. В этой статье разберем, почему каталог — это не первый шаг к порядку, а скорее мультипликатор уже существующей зрелости и что необходимо сделать, чтобы его внедрение принесло реальную пользу.

+19

ak19 1 июл в 21:29

Где искать обучающие материалы по FineBI: разбираем источники

Простой

4 мин

11K

Блог компании GlowByteBig Data * Визуализация данных *

Обзор

Меня зовут Александр Ларин, я руковожу центром обучения и технической поддержки в GlowByte. Мы постоянно внедряем FineBI у клиентов и регулярно слышим один и тот же вопрос: «а где почитать или посмотреть, чтобы разобраться самому?» Решил собрать ответ в одном месте.

+12

EvgenyVilkov 1 июл в 08:57

TPC-DS в 07.2026. Lakehouse: Spark, Trino, StarRocks, Impala и Doris. Greenplum & Cloudberry vs StarRocks как MPP

Средний

10 мин

7.2K

Блог компании Data SapienceВысоконагруженные системы * Big Data * Базы данных * Data Engineering *

Мнение

Привет, Хабр! На связи команда Data Sapience. С последней публикации результатов тестирования MPP-движков прошло уже несколько месяцев. За этот период произошел ряд изменений в базовых версиях open source движков и фреймворков, а также наша команда разработки внесла ряд улучшений и доработок. Все это может повлиять расстановку сил в рейтинге.

В сегодняшней публикации мы представим максимальное число претендентов, среди которых: Spark 3.5.*, Spark 3.5.* + DataFusion Comet, Spark 4.0.1, Spark 4.0.1 + DataFusion Comet, StarRocks (core based 3.5+, 4.0+), Impala (core based 4.5), Trino (459, 476, 479) и новичок нашего рейтинга — Apache Doris.

Статья поможет вам ответить на вопросы: стоит ли переходить на Spark 4 в поисках производительности; Как нативные вычисления влияют на результаты Spark; Как улучшилась производительность Trino за последние полгода; нужно ли присмотреться к Apache Doris, если вы ищете альтернативу Impala и StarRocks, и как эти проекты связаны между собой; какие оптимизационные улучшения были добавлены нами в StarRocks и Impala за последнее время.

И на десерт мы покажем вам сравнение Greenplum, Cloudberry и StarRocks в режиме Shared-Nothing MPP.

+16

Maxpiter 30 июн в 08:24

Databricks обещал конец баз данных. Читаем мелкий шрифт

Простой

7 мин

5.1K

Хранение данных * Big Data * Data Engineering * Базы данных * Apache *

Аналитика

Пару дней назад я собрал сводку новостей по lakehouse и закончил её обещанием: разберу каждый громкий анонс по отдельности. Выполняю - и начинаю с самого шумного.

На своём июньском саммите Databricks вышел на сцену с заявлением масштаба смены эпохи: отдельные быстрые базы под витрины больше не нужны, перекачка данных между системами умерла, а всё хозяйство теперь живёт в едином озере, готовом под ИИ-агентов. Звучит так, что хочется встать и поверить.

Я вместо этого полез в их документацию, инженерные блоги и интервью - и ниже по пунктам сверяю, что обещано со сцены, а что написано мелким шрифтом. Сразу скажу: технология местами действительно сильная. Но «конца эпохи» в опубликованных данных я не нашёл - нашёл несколько мест, где громкое слово прикрывает вещь куда более скромную и знакомую.

NeilPerry 29 июн в 11:12

Event Sourcing в платформе данных: миграция с JSON на Avro

Простой

9 мин

9.6K

Блог компании CDEKBig Data * Data Engineering * Java * Хранение данных *

Кейс

Иногда legacy живёт в компании годами не потому, что он плох, а потому что «работает — не трогай». Но однажды появляется триггер, который заставляет переосмыслить подход. В нашем случае таким триггером стала миграция на Kafka 4.0.

Привет! Меня зовут Роман, я инженер данных в компании CDEK и занимаюсь разработкой платформы данных и внедрением self‑service инструментов. В этой статье расскажу, как мы обеспечиваем Event Sourcing подход в платформе больших данных, с какой болью столкнулись при переходе на Kafka 4.0 и как решились отказаться от JSON‑формата.

+44

cyber_river 28 июн в 15:36

Как дать ИИ-агенту работать с данными и не потерять контроль: безопасный data-join через MCP, вместо создания DataLake

Средний

9 мин

9.8K

TypeScript * Data Engineering * Big Data *

Кейс

Это продолжение новых безопасных паттернов по работе с MCP, которые я для себя придумал, которые я описал в статье:

Основная задумка вместо того, чтобы строить очередной Data-lake возможно ли организовать взаимодействие через MCP так с данными, чтобы это было безопасно и эффективно

Кликай сюда, если интересно почитать

Malakhova-Natalya 28 июн в 13:10

Теория и практика DWH: что такое согласованные факты и измерения по Кимбаллу и зачем они нужны

Простой

4 мин

9.6K

Big Data * Data Engineering * Анализ и проектирование систем * Хранение данных *

Небольшой обзор идей согласованности в DWH на основе книг Кимбалла.

В статье - краткий разбор некоторых принципов моделирования данных простыми словами.

- Кто такой Кимбалл и каков его подход
- Факты и измерения
- Согласованные факты
- Согласованные измерения
- SVOT, или single version of truth

Cartienj 26 июн в 11:27

Science‑purpose‑RAG: туда и обратно

Средний

9 мин

6.6K

Big Data * Python * SQLite *

Ретроспектива

Из песочницы

Я хотел написать маленький локальный RAG для научных статей: графы, hybrid search, HyDE, reranker, всё красиво. В итоге Full Pipeline проиграл почти всем простым baseline’ам, графы начали портить контекст, HyDE вредил, а локальная LLM уверенно делала вид, что всё хорошо. Потом я разобрался, что ломалось, выкинул лишние LLM‑вызовы, починил trimming и получил систему, которая, наконец, начала выигрывать там, где должна.

Где же оно сломалось?

begemot1984 26 июн в 11:18

Автоматизация разработки и деплоя потоков Apache NiFi

Средний

28 мин

7.5K

Блог компании СберApache * Big Data *

Кейс

Я Игорь Юрченко, backend-разработчик Сбера, в этой статье расскажу о нашем опыте автоматизации деплоя потоков Apache NiFi.

Apache NiFi — инструмент для управления потоками данных между автоматизированными системами (реализует подход ETL — extract, transform, load). Документация: https://nifi.apache.org/documentation/v1 (на момент написания статьи актуальна версия 2.x, но тут речь про 1.x). Физически это Java-приложение с графическим web-интерфейсом, в котором настраивается поток — в общем случае набор процессоров, которые получают на вход какие-то данные от предыдущего процессора или из внешней системы, обрабатывают их определённым образом и передают следующему процессору или во внешнюю систему. Процессор — готовый модуль с параметрами интеграции и/или обработки данных (например, строка подключения к БД, или схема трансформации данных). То есть ETL настраивается графически, без написания кода. NiFi обладает возможностями горизонтального масштабирования (ноды кластера имеют одинаковую копию настроек потока, обрабатывают данные параллельно), и расширения (пользователь может писать custom процессоры и использовать их в потоках наравне со штатными). Из коробки поддерживается множество внешних систем и протоколов передачи данных.

Apache NiFi Registry — инструмент версионирования потоков, Java-приложение с web-интерфейсом, интегрировано с NiFi. Что-то вроде системы контроля версий исходного кода, но проще. Пользователь может сохранять в Registry, просматривать и восстанавливать старые версии потока. Документация: https://nifi.apache.org/docs/nifi-registry-docs.

+13

Dalee_group 25 июн в 11:34

Внедрили AI-агента в BI-систему — чистая магия в обработке и визуализации терабайтов данных

Средний

6 мин

10K

Блог компании ДалееИскусственный интеллектBig Data * Визуализация данных *

Кейс

Привет, это команда Далее. На одном из проектов у нас есть терабайты данных о рекламных кампаниях, которые хранятся на десятках площадок. Это множество таблиц, агрегаций, расчетных метрик и формул.

Big Data обрабатывают аналитики и дата-инженеры: приводят в нормальный вид, следят за качеством, рассчитывают дополнительные метрики. В конце концов, все приходит в BI-систему, где менеджеры делают отчеты и визуализируют информацию на дашбордах.

Magnit_tech 24 июн в 12:01

Как MAGNIT TECH превращает ритейл в технологическую платформу: роботы, собственное ПО и ML-решения

10 мин

13K

Блог компании Magnit TechУправление проектами * Управление продуктом * Управление разработкой * Big Data *

MAGNIT TECH — это технологическое ядро крупнейшей розничной сети страны. Более 5 000 инженеров, аналитиков и продуктовых команд разрабатывают, поддерживают и масштабируют свыше 260 ИТ-продуктов и проектов, а также 800 информационных систем — от алгоритмов прогнозирования спроса в 33 000 магазинах до касс самообслуживания с собственным ПО.

Мы ИТ-компания, создающая собственные продукты с высоким уровнем инженерной сложности, без зависимости от вендоров и системных интеграторов. В этой статье — честный рассказ о том, над чем мы работаем прямо сейчас и куда движемся в 2026 году.

+19

Shwelkin 23 июн в 10:16

Реалтайм-аналитика «без боли»: миграция из PostgreSQL и Kafka в ClickHouse и визуализация в Superset

Средний

21 мин

9.6K

Блог компании Magnit TechАнализ и проектирование систем * Проектирование и рефакторинг * Визуализация данных * Big Data *

Кейс

Когда у вас появляется продукт с активными процессами и большим количеством пользователей, объём данных начинает расти быстрее, чем ожидалось. На старте всё выглядит достаточно просто: есть PostgreSQL, где хранятся основные сущности, есть Kafka с событиями, и кажется, что этого достаточно для решения большинства задач.

Но со временем появляются новые вопросы. Команде становится недостаточно просто посчитать количество записей или получить текущее состояние объекта. Хочется понять, что происходило в системе: какие события привели к изменению состояния, какие действия выполнялись, где возникла проблема и на каком этапе произошёл сбой.

В этот момент становится понятно, что обычные источники данных не всегда подходят для аналитики. PostgreSQL должен обслуживать основную нагрузку приложения, а Kafka отлично решает задачи доставки событий, но не является удобным инструментом для сложного анализа.

В этой статье расскажу, как мы с командой построили отдельный аналитический контур: организовали миграцию данных из разных источников, объединили события Kafka и данные PostgreSQL, а затем вывели результат в удобные дашборды для технических специалистов и бизнеса.

Узнать больше

+27

2 3 ...

220 221