¶ 1.1 Вид деятельности, для автоматизации которой предназначен RT.DataGovernance
RT.DataGovernance представляет собой веб-приложение для бизнес-пользователей, которое предназначено для автоматизации следующих задач:
управление бизнес-терминами и их методологией, в т.ч. жизненным циклом с момента создания до момента их верификации методологическим комитетом, а также их иерархией и связями между терминами;
проведение предварительного анализа и оценки качества данных, содержащихся в БД профилируемой системы;
управление реестром отчётов\витрин и других инфосервисов, реализованных в компании, конечной целью которого является верификация отчёта\витрины и принятие его на сопровождение;
формирование документов S2T, содержащих описание трансформаций витрин и их верификация;
управление справочниками системы и их значениями для поддержания консистентности данных в БД;
тегирование объектов RT.DataGovernance для установления связей между ними и их классификации как единой тегированной сущности для мониторинга или иных целей;
организация единой точки входа во все компоненты RT.DataGovernance на портале, а также размещение на портале всей сопутствующей информации о работе подразделений по управлению данными.
¶ 1.2 Перечень объектов автоматизации, на которых используется RT.DataGovernance
Объектами автоматизации являются бизнес-процессы компании в части управления данными и обеспечения информационно-аналитической деятельности специалистов.
Автоматизации подлежат функции в рамках бизнес-процессов, исполняемых структурными подразделениями компании. Ниже в таблице представлен ПРИМЕР распределения функций между структурных подразделений некоторой компании.
формирование объектов в RT.DataGovernance и формирование связей между ними;
формализация требований потребителей данных по каждому направлению;
создание артефактов информационной архитектуры и модели данных ИС;
взаимодействие с пользователями, т.е. ответы на запросы по консультациям;
ведение портала DataOffice в части размещения информации о работе подразделения.
Методологический комитет
согласование бизнес-терминов и проверка соответствия бизнес-терминов общекорпоративным.
Бизнес-заказчики и иные функциональные блоки
потребление данных RT.DataGovernance для выполнения своих задач.
¶ 2. ПЕРЕЧЕНЬ ФУНКЦИЙ, РЕАЛИЗУЕМЫХ В RT.DATAGOVERNANCE
Основные функции RT.DataGovernance:
1. Ведение Бизнес-глоссария, в части:
обеспечение жизненного цикла бизнес-терминов — заведение нового термина, его проверка, согласование, изменение при необходимости, удаление, а также установка периода его действия;
сведение бизнес-терминов в единую экосистему, т.е. их распределение по категориям и установления между ними различных типов связи ("ребёнок-родитель", “синонимы” и прочие);
создание кастомной иерархии категорий для каждой отдельной ветки дерева общей иерархии терминов и категорий;
конструирование карточки бизнес-термина, т.е. генерация любых кастомных полей, содержащих разные типы данных, которые пользователь заполняет вручную или из справочника при создании новой карточки, и объединение этих полей в группы;
создание нового термина с использованием формы для ввода и посредством импорта файла в формате excel;
добавление бизнес-логики формирования, включая формулы, описания, ссылки на методологию при создании термина;
управление иерархией терминов, в т.ч. категориями, множеством уровней вложенности и типами связи между терминами;
закрепление за термином владельца и ответственных за него лиц;
гибкий настраиваемый процесс согласования терминов (настройка согласования в несколько этапов, расширенная настройка согласующих, возможность введения запрета на редактирование термин на любом этапе согласования);
возможность поиска и расширенной фильтрация терминов в иерархии по различным критериям;
просмотр детальной информации о термине на его карточке, в том числе перечня отчётов, в которых используется данный термин, и таблиц, в которых он используется;
возможность импорта сведений о терминах в файл формата excel;
нотификация об изменениях сведений о терминах в интерфейсе RT.DataGovernance, а также направление информации о добавлении нового термина и смене текущего статуса термина на электронную почту;
возможность просмотра состояний термина на разные контрольные точки, а также вывод изменений между контрольными точками;
возможность ведения “соцсети” для термина.
2. Ведение Датакаталога, в части:
управление соединениями с различными типами БД профилируемых систем (PostgreSQL, Greenplum, Oracle, MS SQL, MySQL, CLICKHOUSE, TERADATA), в т.ч. создание кастомных соединений, автоматическая валидация системы параметров соединения;
управление соединениями с различными типами BI-систем (Power BI, Apache Supe Set);
чтение метаданных из профилируемых систем, с которыми установлено соединение;
разметка данных профилируемых БД по типам (общедоступные\чувствительные) (с использованием модуля Теги);
предоставление доступа к чувствительным данным ограниченному кругу пользователей, для остальных пользователей — предоставление в маскированном виде;
создание и запуск задач на профилирование БД и BI-систем по настроенному расписанию или в тот момент, когда необходимы актуальные результаты профилирования;
предоставление исчерпывающей информации о БД систем в различных срезах (соединение\схема\таблица\колонка), а также генерации результатов профилирования всех объектов от простого подсчёта объектов до выведения информации о рейтинга популярности объекта среди пользователей и выведения примеров данных;
конструирование карточки таблицы БД в части описания, т.е. генерация любых кастомных полей, содержащих разные типы данных, которые пользователь заполняет вручную или из справочника при редактировании карточки, и объединение этих полей в отдельные блоки на карточке;
предоставление перечня отчётов и информации о них из BI-систем;
возможность сравнения состояний объектов профилируемой системы на разные контрольные точки;
закрепление за БД владельца и ответственных пользователей.
3. Ведение Реестра отчётов, в части:
обеспечение жизненного цикла информации о реализованных отчётах — добавление информации о новом реализованном отчёте в реестр, её проверка, изменение информации об уже существующем отчёте или удаление сведений об отчёте из реестра;
заведение информации о новом отчёте с использованием формы ввода данных и посредством импорта файла в формате excel;
возможность поиска сведений о реализованном отчёте по любым заданным параметрам, а также фильтрации сведений в реестре по всем столбцам;
возможность просмотра ключевой информации об отчёте в реестре, а также переход в просмотр Карточки отчёта;
автоматическая валидация введённой информации об отчёте, в том числе на соответствие актуальным справочникам и текущим проверкам, а также возможность валидации данных сотрудником определённой роли;
нотификация об изменениях информации по отчётам непосредственно в интерфейсе RT.DataGovernance, а также посредством отправки оповещения на электронную почту о добавлении новой информации об отчёте или смены его статуса;
просмотр детальной информации о существующем отчёте с описанием его атрибутного состава, регламента готовности его данных, перечня источников и управление ими;
возможность комментирования отчётов с отметкой пользователя, которому направляется сообщение, размещением файлов и в целом расширенной возможности форматирования текста отправляемого сообщения.
4. Ведение документации S2T, в части:
обеспечение жизненного цикла документов S2T — создание нового документа, изменение версий существующего, его удаление и верификация версий документа;
возможность поиска уже существующего документа S2T по различным параметрам;
возможность импорта уже созданного документа S2T в RT.DataGovernance;
возможность экспорта документов S2T из RT.DataGovernance (в форматах csv/excel);
хранение технической информации о модели данных ИС, для которой подготавливаются документы S2T;
обеспечение автозаполнения полей при создании документа с использованием информации о модели данных ИС;
валидация введённых данных.
5. Ведение Интерфейса справочников, в части:
предоставление интерфейса и внутренних механизмов по корректированию справочников системы и их значений для обеспечения консистентности данных в системе.
6. Ведение Тегов, в части:
создание категорий тегов и заведение тегов них;
осуществление классификации объектов RT.DataGovernance, т.е. установление связи объектов и определённых тегов;
хранение особой категории тегов, предназначенных для осуществления разметки данных Датакаталога по типам (общедоступные\чувствительные) и предоставления на её основе либо прав на просмотр чувствительных данных, либо прав на просмотр чувствительных данных в маскированном виде различным группам пользователей.
7. Ведение Единой точки входа (DataOffice), в части:
представление в едином месте (портале) сжатой информации о результатах работы подразделений по управлению данными (реализованные сервисы), новостях, мероприятиях, контенте, сгенерированном командой; о том, как получить доступ по каждому сервису; FAQ о бизнес-процессах команды, о дата-сервисах и о любых прочих вопросах; информации по обучению и остальной информации, которой намерена поделиться команда по управлению данными для продвижения data-driven культуры в компании;
конструирование DataOffice из неограниченного количества страниц и информационных блоков с различными видами и функциональностью размещаемой информации;
сквозной поиск по ключевым словам объектов RT.DataGovernance и иного контента DataOffice;
подписка на дайджест изменений публикуемой информации и функциональности DataOffice;
отправка вопроса напрямую подразделению по управлению данными и дальнейшее получение ответа на него по e-mail;
добавление объектов DataOffice в избранное и получение к ним оперативного доступа;
обеспечение оперативного доступа к важной актуальной информации, публикуемой на DataOffice, которая располагается на слайдере главной страницы;
публикация и просмотр на DataOffice видеороликов, связанных с data-driven культурой и генерируемых подразделением по управлению данными;
просмотр и поиск бизнес-терминов, хранимых в Бизнес-глоссарии, прямо с DataOffice;
просмотр и поиск информации о реализованных отчётах\витринах, хранимой в Реестре отчётов, с DataOffice и возможность перехода в Реестр отчётов для углублённого изучения выбранного отчёта\витрины;
просмотр и поиск метаданных хранилищ данных и BI-систем, хранимых в Датакаталоге;
выведение топа отчётов\витрин Реестра отчётов в разрезе критичных для компании показателей с возможностью изучения информации по ним;
публикация и просмотр дайджестов\мероприятий\новостей по data-направлению;
публикация и просмотр информации об обучении и обучающих видеороликов по направлению работы с данными;
публикация и просмотр исчерпывающей информации о получении доступа и работе с каждым сервисом, который реализован data-командой или с которым взаимодействует она в процессе работы;
публикация и просмотр контента техкомьюнити по работе с данными (записи и ссылки на доклады и митапы), возможность предложить тему доклада и поддержать интересующую тему лайками;
публикация и просмотр информации о команде по работе с данными (структура, реализуемые сервисы\проекты, цели, контакты и прочего, что поможет разобраться в бизнес-процессах команды и генерируемых ей сервисах);
публикация и просмотр FAQ.
8. Реализация связи бизнес-терминов с техническими метаданным на уровне БД с целью унификации методологии и алгоритмов расчёта показателей и возможности переиспользования данных.
9. Выстраивание потоков данных (Data Lineage) от источника данных до средств визуализации (BI-инструменты) с отображением всех этапов их трансформации.
10. Визуализация потоков данных (Data Lineage) в связке Источник данных – Витрина – Бизнес-термин – Описание бизнес-термина – BI-инструмент.
11. Ведение версионности и историчности хранимой информации по всем объектам RT.DataGovernance.
12. Использование ролевой модели в RT.DataGovernance для покрытия всех стадий жизненного цикла вносимой в систему информации с возможностью включения пользователей в группы, назначения им атомарных прав и применение различных форм фильтрации доступа к объектам (если необходимо добавить исключения в правах).
13. Поддержка одновременной работы несколькими пользователями над одним объектом RT.DataGovernance, в том числе блокировки объекта от внесения исправлений другими пользователями.
14. Интеграция всех компонентов RT.DataGovernance с целью создания единой экосистемы управления данными.
15. Нотификация пользователей о релизах системы с полным описанием произведённых изменений.
16. Предоставление формы обратной связи для отправки пользователями сообщений о проблемах в системе, идеях по развитию системы и любой другой важной информации.
17. Полное логирование работы системы (фронтенда и бэкенда), всех действий пользователей и других процессов.
18. Предоставление бизнес-пользователям Единой точки входа, обеспечивающей лёгкую навигацию по объектам системы и возможность создания личной панели с определённым набором интересующих объектов.
¶ 3.1 Структура RT.DataGovernance и назначение его частей
Компоненты RT.DataGovernance и их взаимосвязи представлены на схеме ниже.
В состав RT.DataGovernance включены следующие компоненты:
Бизнес-глоссарий — предназначен для ведения глоссария бизнес-терминов.
Датакаталог — предназначен для автоматического профилирования БД подключаемых систем и вывода результатов профилирования.
Реестр отчётов — предназначен для ведения реестра реализованных BI-отчётов и витрин данных.
S2T — предназначен для формирования документов S2T, содержащие описание трансформаций витрин данных.
Интерфейс справочников — предназначен для управления справочниками RT.DataGovernance.
Единая точка входа (DataOffice)— предназначена для консолидации всей экосистемы компонентов RT.DataGovernance в едином месте для конечных пользователей.
Теги — предназначен для установления связей между объектами RT.DataGovernance других тегами.
¶ 3.2 Описание функционирования RT.DataGovernance и его частей
Функции всех компонентов RT.DataGovernance выполняют следующие технологические компоненты:
СУБД, используемая компонентами для хранения получаемой и генерируемой информации, – Postgres 10.17.
¶ 4. ОПИСАНИЕ ВЗАИМОСВЯЗЕЙ RT.DATAGOVERNANCE С ДРУГИМИ СИСТЕМАМИ
¶ 4.1 Перечень систем, с которыми связан RT.DataGovernance
Смежными системами для RT.DataGovernance являются:
БД метаданных информационной системы — источник структуры данных ИС для Датакаталога RT.DataGovernance (схемы, таблицы, колонки);
Корпоративная служба каталогов на базе Microsoft Active Directory — источник учётных записей, для авторизации пользователей в компонентах RT.DataGovernance.
Компонент Бизнес-глоссарий предназначен для управления бизнес-терминами (создание, согласование, изменение, удаление).
Компонент Бизнес-глоссарий обеспечивает следующие возможности:
ведение бизнес-терминов, включая наименование, тип, описание, формат;
первоначальное конструирование карточки термина (путём добавления кастомных полей и группировки полей в блоки на карточке) для последующего использования в системе;
ведение категорий для бизнес-терминов и выстраивание кастомной иерархии категорий для каждой ветки;
ведение связей между терминами;
одновременное изменение данных несколькими пользователями;
указание бизнес-логики формирования, включая формулы, описания, ссылки на методологию;
разграничение прав пользователей по ролям и объектам;
ведение историчности;
назначение владельца и ответственных лиц за бизнес-термины;
выполнение гибкого процесса для согласования изменений;
выстраивание связей с техническими метаданными и компонентами Реестр отчётов, Интерфейс справочников, Проверки контента и S2T через БД RT.DataGovernance;
сквозной поиск по всем объектам;
связанный поиск по всем объектам (например, все витрины, BI-отчёты с искомым бизнес-термином и т.д.).
Компонент Датакаталог предназначен для сбора информации о метаданных БД и BI-компонентов профилируемых информационных систем, их анализа и предоставления бизнес-пользователям результатов профилирования.
Компонент Датакаталог обеспечивает следующие возможности:
установление соединения с БД ИС с использованием различных коннекторов;
установление соединения с BI-системами;
получение метаданных\данных из БД ИС и их обработка;
получение метаданных из BI-систем, а именно информации об отчётах;
разметка данных, полученных из БД ИС, по типам (общедоступные\чувствительные) с использованием функциональности компонента Теги;
ограничение предоставления доступа к чувствительным данным с использованием механизма маскирования данных;
предоставление результатов профилирования на основе собранных метаданных БД ИС;
первоначальное конструирование карточки таблицы профилируемой БД (путём добавления кастомных полей в карточку и объединения их в группы) для последующего использования в системе;
настройка расписания запуска задач на синхронизацию с БД или BI-системой, а также запуск задач вручную.
Компонент Реестр отчётов предназначен для управления записями о реализованных отчётах\витринах (создание, изменение, удаление, верификация).
Компонент Реестр отчётов обеспечивает следующие возможности:
ведение, обновление, изменение информации по отчётам\витринам, реализованным в корпоративных информационных системах отчётности;
выстраивание связей с техническими метаданными и компонентами Бизнес-глоссарий, Интерфейс справочников, Проверки контента и S2T через БД RT.DataGovernance;
одновременное изменение данных несколькими пользователями.
Компонент S2T предназначен для управления документацией S2T (создание, изменение через создание версий, верификация версий, удаление).
Компонент S2T обеспечивает следующие возможности:
ведение, обновление, изменение информации по документации S2T;
выстраивание связей с техническими метаданными и компонентами Бизнес-глоссарий, Реестр отчётов, Интерфейс справочников и Проверки контента через БД RT.DataGovernance;
одновременное изменение данных несколькими пользователями.
Компонент Теги представляет собой совокупность категорий и тегов, в них входящих, а также объектов RT.DataGovernance, которые связаны тегами.
Для процесса тегирования объекты других компонентов RT.DataGovernance автоматически считываются из них, а непосредственное связывание их тегами (и создание тегов и категорий) осуществляется в ручном режиме через имеющуюся функциональность в компоненте Теги и добавленные функции тегирования во всех остальных компонентах.
Компонент DataOffice предназначен для консолидации различной информации о работе подразделения по управления данными, а также является единой точкой входа в другие компоненты RT.DataGovernance.
Компонент DataOffice обеспечивает следующие возможности:
предоставление возможностей портала: публикация новостной сводки, афиши мероприятий и контента с уже прошедших мероприятий, обучающего контента, формируемого подразделением по управлению данными, FAQ, информации, необходимой для сотрудников и бизнеса, и прочего;
предоставление для пользователей формы обратной связи для предоставления консультаций;
организация единой точки входа в другие компоненты RT.DataGovernance;
возможность информирования пользователей об изменениях на DataOffice.
Компонент DataOffice по сути является порталом для публикации информации и данных подразделением по управлению данными для осуществления информирования бизнес-заказчиков и других заинтересованных сторон о том, какими данными оно владеет, как осуществляется взаимодействие с ним по бизнес-процессам, а также предоставляет информацию для продвижения data-driven культуры в компании.
Публикация информации осуществляется в ручном режиме, данные автоматически подтягиваются на DataOffice из других компонентов системы для наполнения разделов Карта данных, Глоссарий и Реестр отчётов. Пользователь взаимодействует с информацией и данными в режиме чтения (а также может направлять запросы, добавлять в избранное).