Управление данными

В современном мире данные стали одним из самых ценных активов для компаний и организаций. Они помогают принимать обоснованные решения, оптимизировать бизнес-процессы и повышать эффективность работы. Однако, чтобы данные действительно были полезными, необходимо уметь управлять ими правильно.

В области управления данными часто используется аббревиатура DIKW (Data - Данные, Information - Информация, Knowledge - Знание, Wisdom - Мудрость) – это сокращение, которое представляет каждый уровень информационной пирамиды.
Пирамида знаний(информационная пирамида) – информационная иерархия, где каждый уровень добавляет определённые свойства к предыдущему. Каждый следующий уровень характеризуется большим уровнем зрелости и кратно меньшим объёмом сведений.

image

  • ДАННЫЕ
    Это дискретные результаты наблюдений в виде фактов и цифр.
  • ИНФОРМАЦИЯ
    На втором уровне находится информация, которая получается из данных, которым придан смысл посредством добавления контекста.
  • ЗНАНИЕ
    Совокупность данных и информации к которым добавляются экспертные мнения, опыт, другие знания.
  • МУДРОСТЬ
    На четвертом уровне находится мудрость, которая является результатом применения знаний в реальной жизни. Другими словами это способность действовать наиболее подходящим образом с учетом того, что известно (знания) и что приносит наибольшую пользу (этические и социальные соображения).

Можно сделать вывод, что данные являются фундаментальным понятием. Они могут быть представлены в различных форматах, таких как таблицы, графики, диаграммы и т.д. Для изучения данных используются методы статистического анализа, математических моделей и алгоритмов. Анализ данных позволяет выявлять закономерности и тренды, определять связи между переменными и прогнозировать будущие события. В отрыве от контекста данные становятся бессмысленными, для понимания их смысла нужно знать контекст. Данных в природе не существует, данные создаются. Данные – это стратегически значимый актив организации. Для извлечения максимальной пользы из данных необходимо осваивать новые способы их использования.

Жизненный цикл данных

Жизненный цикл данных включает процессы,

  • которые создают или получают данные
  • процессы, которые осуществляют их перемещение, преобразование, хранение, а также обеспечивают обслуживание данных и предоставление совместного доступа к ним
  • процессы использования или применения данных,
  • а также процессы, обеспечивающие их ликвидацию.

Все управленческие решения и практические действия, имеющие отношение к данным, так или иначе привязаны к их жизненному циклу (ЖЦ). Выделяют следующие части ЖЦ:

  1. планирование;
  2. проектирование и обеспечение доступности данных;
  3. создание или получение данных;
  4. перемещение, преобразование, хранение, а также обслуживание данных и предоставление совместного доступа к ним;
  5. расширение возможностей использования данных;
  6. улучшение (повышение ценности) данных.
    Завершает цикл ликвидация данных. Кроме того, на протяжении всего ЖЦ данные можно очищать, преобразовывать, подвергать слиянию или агрегировать.
    Требования к организации отдельных фаз ЖЦ зависят от вида данных. ЖЦ данных в отдельно взятой организации может оказаться весьма запутанным. Наряду с ЖЦ данные имеют еще и путь (lineage), по которому они движутся от места возникновения до места использования; этот путь иногда называют также цепочкой данных.

Теория управления данными

Стратегия работы с данными должна предусматривать бизнес-планы использования информации для получения конкурентных преимуществ и реализации целей организации. Необходимо понимать: какие данные нужны организации, как она будет получать эти данные, управлять ими, обеспечивать их надежность и достоверность на протяжении всего ЖЦ, каким образом будет использовать данные. Здесь важную роль играет CDO(Chief Data Officer) – директор по данным Управление данными подразумевает эффективную, экономичную и безопасную организацию процессов сбора, хранения и использования данных. Его целью является оптимизация управления данными сотрудниками, компаниями и подключенными устройствами с соблюдением политик и правил таким образом, чтобы они могли принимать решения и действовать наиболее выгодным для компании образом.

Еще 30 лет назад была образована международная ассоциация управления данными DAMA (Data Management Association International, dama.org), которая объединила профессионалов в области управления данными по всему миру, занимающихся сбором, систематизацией и продвижением лучших практик. Главными задачами DAMA являются выработка общей терминологии, развитие структуры знаний и системы подходов к управлению данными. Для этого ассоциация выпускает руководства (DAMA-DMBOK) к своду знаний по управлению данными (Data Management Body of Knowledge, DMBOK), первое издание которого увидело свет в 2009 году.

Пирамида DMBOK2 разработана Питером Айкеном и включает все области знаний об управлении данными из DAMA DMBOK2(доработанное издание 2014 года), а также учитывает то, как в компаниях обычно начинают работать с данными (без стратегии управления данными).

Пирамида помогает понять, на каком этапе компания находится, и как двигаться дальше, чтобы выстроить надежные процессы управления данными.

Среди проблем управления данными выделяют следующее:

  1. Данные легко скопировать и отправить куда угодно.
  2. Одними и теми же данными могут одновременно пользоваться множество людей.
  3. Многие способы использования данных порождают еще больше данных.
  4. В случае утери организацией своих уникальных данных заменить их будет нечем, а восстановить невозможно или непомерно дорого.
  5. Большинство информационных транзакций предусматривают обмен данными.
  6. Компания накапливает огромный объём данных, о которых сама даже не догадывается.
  7. Данные необходимо надежно хранить, а это стоит денег.
  8. Данные должны быть качественными.

Если в организации данные и операции над ними осуществляются, к примеру, в Excel, то высока вероятность возникновения вышеуказанных проблем. Использование информационных систем класса Business Intelligence может помочь компании не допустить лишних издержек на их исправление. В таблице представлено сводное сравнение функциональностей MS Excel и BI-системы Analytic Workspace:

Критерий сравнения MS Excel Analytic Workspace
Подключение к источникам данных Подключение к внешним источникам через интеграцию Power Query Возможность работы одновременно с несколькими различными источниками данных
Объем данных До миллиона строк Big Data (свыше миллиона строк)
Обработка и трансформация данных Широкие возможности сложных вычислений и выстраивания корреляций для аналитики Встроенный ETL-модуль предоставляет возможность глубокой трансформации данных для решения сложных аналитических задач
Построение моделей данных Возможность реализации сложных моделей построением сложных формул, VBA и Python Построение моделей данных осуществляется drag-and-drop способом, не требует углубленных навыков программирования
Визуализация 15 категорий различных типов визуализации данных Более 20 видов визуализации, удобные дашборды
Разграничение доступа к данным Возможна защита паролем на уровне файла, однако разработчик официально предупреждает, что это не является стопроцентной защитой персональных данных Ролевая модель доступа к данным вплоть до уровня отдельных информационных панелей с возможностью расширения полномочий
Внедрение и доступность Внедрен повсеместно, однако невозможно в настоящее время приобретение полнофункциональной коробочной версии Внесен в реестр отечественного ПО, обладает высоким импортозамещающим потенциалом
Стоимость Официально недоступен, а аналоги (Google Sheets, МойОфис Таблица, Libre Office Calc и т.д.) – значительно уступают по функциональности Стоимость 1 лицензии разработчика: от 5 000 руб/месяц

Отдельно стоит обратить внимание на качество данных. Без этого все затраты на сбор, хранение и защиту данных, будут потрачены напрасно. Необходимо тесно работать с конечными потребителями данных, чтобы определить их потребности и совместно установить ключевые характеристики качества их данных. Некачественные данные приведут к неверным решениям и негативным последствиям.

Таким образом, грамотно выстроенная работа с данными является показателем зрелости информационной политики организации. При правильно выстроенных процессах управления данными возможно увеличить эффективность организации и снизить издержки.