Обзор системы Digital Q.DataFactory от компании Диасофт

«Фабрика данных» Digital Q.DataFactory представляет собой комплексное решение, направленное на интеграцию, хранение, обработку и анализ разнородных данных. Оно решает проблемы, возникающие при работе с большими объемами данных.

Решение включает полный цикл работы с данными: сбор, очистка, обогащение, моделирование и предоставление готовых инструментов для машинного обучения и продвинутого анализа. Благодаря этому заказчик получает единый источник истины, позволяющий оперативно реагировать на изменения рынка и выявлять скрытые возможности бизнеса.

Сложности при работе с данными

Интеграция данных:

  • Разрозненность источников данных (базы данных, файлы, устройства IoT)
  • Необходимость ручного отслеживания изменений

Обработка и анализ:

  • Недостаточность существующих инструментов
  • Отсутствие автоматизированных ETL-процессов

Хранение данных:

  • Отсутствие единого унифицированного хранилища
  • Проблемы поддержки специфичных форматов (например, геоданных, потоков и др.)

Безопасность:

  • Риск несанкционированного доступа
  • Отсутствие детального контроля доступа

Производительность:

  • Медленный доступ к данным (более секунды при объёме порядка 10 мегабайт)
  • Невозможность быстрого масштабирования инфраструктуры
  • Отсутствие механизмов непрерывной интеграции и доставки (CI/CD)
  • Отсутствие автоматического мониторинга производительности

Управление данными:

  • Отсутствие общего каталога данных

Компоненты решения

Для реализации полноценного цикла работы с данными Digital Q.DataFactory предлагает комплекс компонентов, включая:

  1. Инфраструктура для MLOps и распределённых вычислений, позволяющая разрабатывать и обучать ML-модели
  2. Портал данных, предоставляющий пользователям удобный интерфейс для доступа к необходимым данным
  3. Средства разработки аналитических приложений: загрузки, проверки качества, обработки и визуализации данных
  4. Базовые инфраструктурные элементы, поддерживающие работу всех подсистем фабрики данных

Пользовательские роли

Среди ключевых ролей, которым адресовано данное решение:

  • Инженеры и аналитики данных
  • Бизнес-пользователи
  • Разработчики решений на основе ИИ и GPT-технологий

Источники данных

Данные поступают из множества источников, среди которых:

  • JDBC-подключаемые базы данных
  • REST API-интерфейсы
  • ODBC-соединяемые СУБД
  • Лог-файлы и события
  • Корпоративные ERP-системы

Безопасность

Система Digital Q.Security обеспечивает высокий уровень защиты данных путём внедрения:

  • SSO для аутентификации
  • RBAC и ABAC для детализированного управления правами доступа
  • SIEM-решения для мониторинга угроз и реагирования на инциденты

Метаданные

Управление метаданными осуществляется с использованием OpenMetadata и других специализированных инструментов, обеспечивая:

  • Централизованное хранение метаданных
  • Контроль качества данных
  • Мониторинг инцидентов и их автоматическое устранение

Хранилище данных

Решение Digital Q.DataFactory основано на архитектурах типа LakeHouse, использующих хранилища типа S3 (Ceph/Mino). Это обеспечивает высокую производительность и снижение затрат на инфраструктуру.

Преобразование и загрузка данных

Процесс преобразования и загрузки данных реализуется с помощью DataStreamer, инструмента, способствующего быстрой разработке и запуску ETL-процессов, поддерживающих как пакетную, так и потоковую обработку данных.

Функционал решения

Digital Q.DataFactory предоставляет широкий спектр возможностей для работы с данными, включая:

  • обработку больших объемов данных с помощью Spark, Impala и Trino
  • Автоматизацию управления качеством данных и каталогизации с использованием OpenMetadata и Digital Q.BPM
  • Продвинутый инструментарий для аналитической работы и машинного обучения с применением технологий GPT и KubeFlow
  • Простоту и удобство представления данных благодаря интерфейсам Sensor BI и Birt
  • Комфортную среду разработки и аналитики с Jupyter и Hue

Преимущества решения

Ключевые преимущества цифровой фабрики данных заключаются в следующем:

  • Значительное сокращение совокупной стоимости владения данными (на 40%-60%)
  • Предоставление универсального хранилища данных, подходящего для широкого спектра задач
  • Повышение эффективности разработки и снижения зависимости от уровня квалификации инженеров данных
  • Использование AI и технологий глубокого обучения для повышения точности прогнозов и аналитики
  • Высокая степень масштабируемости, обеспечиваемая разделением уровней хранения и обработки данных
CIO-NAVIGATOR