Databricks — универсальная платформа Lakehouse для данных и искусственного интеллекта

Databricks представляет архитектуру Lakehouse, которая сочетает в себе преимущества озер данных и традиционных хранилищ. В основе платформы лежит Apache Spark, обеспечивающий высокопроизводительную обработку больших объемов информации. Интеграция открытых технологий, таких как Delta Lake, MLflow и Koalas, делает решение гибким и удобным для использования как в исследовательских, так и в производственных задачах.

В 2024–2025 годах компания активно развивает инструменты для искусственного интеллекта. Пакет Mosaic включает средства для поиска по векторам, построения генеративных моделей на основе Retrieval-Augmented Generation, сервинг моделей и даже функции предобучения собственных больших языковых моделей.

Databricks

Databricks SQL и аналитика

Для специалистов в области бизнес-аналитики доступен инструмент Databricks SQL. Он позволяет выполнять запросы на языке SQL поверх Lakehouse и интегрируется с популярными BI-платформами. Такой подход снимает барьер между традиционными аналитиками и инженерами данных, объединяя их в рамках одного рабочего процесса.

Databricks Runtime и версии

Databricks Runtime — это оптимизированная среда для Spark с дополнительными библиотеками и интеграциями. Она поддерживает GPU, авто-масштабирование и дает готовые инструменты для работы с MLflow, Delta Lake и Unity Catalog. Существуют стандартные версии для нововведений и LTS-версии с длительной поддержкой для критически важных систем.

ВерсияТипSpark-версияДата выпускаКонец поддержки
17.1Standard; ML (Beta)4.0.0август 2025февраль 2026
17.0Standard; ML4.0.0июнь 2025ноябрь 2025
16.4 LTSLTS; ML LTS3.5.2май 2025май 2028

Новые возможности и развитие

На конференции Data + AI Summit 2025 были представлены новые ключевые инструменты. Lakebase стал первой серверлесс-базой на основе Postgres с низкой задержкой и высокой пропускной способностью. Unity Catalog расширил поддержку, включая формат Apache Iceberg, что усилило управление гибридными средами. Также появилась бесплатная версия Databricks, доступная в превью и включающая кластер, Unity Catalog и образцы ноутбуков.

В сентябре 2025 года добавлен режим Assistant Agent Mode, превращающий платформу в полноценного агента для дата-сайентистов. Ассистент способен создавать ноутбуки, запускать код и исправлять ошибки на основе простого запроса. Дополнительно были представлены поддержка GPU H100 и Online Feature Store.

Конкуренты и рыночная позиция

Databricks демонстрирует сильный рост: годовой доход приблизился к 4 млрд долларов, из которых около четверти связано с продуктами AI. Компания оценивается более чем в 100 млрд долларов и активно инвестирует в развитие в партнерстве с ведущими игроками рынка.

Основным конкурентом считается Snowflake, который традиционно делает ставку на структурированные данные и функции data-warehousing. Databricks же акцентирует внимание на lakehouse и AI-сценариях, что дает ему преимущество в задачах гибридной аналитики и построения моделей машинного обучения.

Сильные стороны и вызовы

Преимущества Databricks:

  • объединение данных, аналитики и AI в единую экосистему
  • сильное комьюнити вокруг открытых технологий
  • регулярные обновления и внедрение новых функций

Недостатки:

  1. сложность миграций между версиями Runtime
  2. необходимость глубокого понимания архитектуры Spark и lakehouse
  3. отдельные AI-инструменты пока находятся на стадии превью или бета-тестирования

Databricks как движущая сила будущего

Databricks уверенно закрепляется в статусе одного из лидеров в области работы с данными и AI. Благодаря развитию Lakehouse, интеграции инструментов для искусственного интеллекта и поддержке открытых технологий, платформа становится универсальным решением для компаний, стремящихся к инновациям и построению цифровых стратегий.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх