В современном мире данные стали одним из самых ценных активов для компаний и организаций. Они помогают принимать обоснованные решения, оптимизировать бизнес-процессы и повышать эффективность работы. Однако, чтобы данные действительно были полезными, необходимо уметь управлять ими правильно.
В области управления данными часто используется аббревиатура DIKW (Data - Данные, Information - Информация, Knowledge - Знание, Wisdom - Мудрость) – это сокращение, которое представляет каждый уровень информационной пирамиды.
Пирамида знаний(информационная пирамида) – информационная иерархия, где каждый уровень добавляет определённые свойства к предыдущему. Каждый следующий уровень характеризуется большим уровнем зрелости и кратно меньшим объёмом сведений.
- ДАННЫЕ
Это дискретные результаты наблюдений в виде фактов и цифр. - ИНФОРМАЦИЯ
На втором уровне находится информация, которая получается из данных, которым придан смысл посредством добавления контекста. - ЗНАНИЕ
Совокупность данных и информации к которым добавляются экспертные мнения, опыт, другие знания. - МУДРОСТЬ
На четвертом уровне находится мудрость, которая является результатом применения знаний в реальной жизни. Другими словами это способность действовать наиболее подходящим образом с учетом того, что известно (знания) и что приносит наибольшую пользу (этические и социальные соображения).
Можно сделать вывод, что данные являются фундаментальным понятием. Они могут быть представлены в различных форматах, таких как таблицы, графики, диаграммы и т.д. Для изучения данных используются методы статистического анализа, математических моделей и алгоритмов. Анализ данных позволяет выявлять закономерности и тренды, определять связи между переменными и прогнозировать будущие события. В отрыве от контекста данные становятся бессмысленными, для понимания их смысла нужно знать контекст. Данных в природе не существует, данные создаются. Данные – это стратегически значимый актив организации. Для извлечения максимальной пользы из данных необходимо осваивать новые способы их использования.
Жизненный цикл данных
Жизненный цикл данных включает процессы,
- которые создают или получают данные
- процессы, которые осуществляют их перемещение, преобразование, хранение, а также обеспечивают обслуживание данных и предоставление совместного доступа к ним
- процессы использования или применения данных,
- а также процессы, обеспечивающие их ликвидацию.
Все управленческие решения и практические действия, имеющие отношение к данным, так или иначе привязаны к их жизненному циклу (ЖЦ). Выделяют следующие части ЖЦ:
- планирование;
- проектирование и обеспечение доступности данных;
- создание или получение данных;
- перемещение, преобразование, хранение, а также обслуживание данных и предоставление совместного доступа к ним;
- расширение возможностей использования данных;
- улучшение (повышение ценности) данных.
Завершает цикл ликвидация данных. Кроме того, на протяжении всего ЖЦ данные можно очищать, преобразовывать, подвергать слиянию или агрегировать.
Требования к организации отдельных фаз ЖЦ зависят от вида данных. ЖЦ данных в отдельно взятой организации может оказаться весьма запутанным. Наряду с ЖЦ данные имеют еще и путь (lineage), по которому они движутся от места возникновения до места использования; этот путь иногда называют также цепочкой данных.
Теория управления данными
Стратегия работы с данными должна предусматривать бизнес-планы использования информации для получения конкурентных преимуществ и реализации целей организации. Необходимо понимать: какие данные нужны организации, как она будет получать эти данные, управлять ими, обеспечивать их надежность и достоверность на протяжении всего ЖЦ, каким образом будет использовать данные. Здесь важную роль играет CDO(Chief Data Officer) – директор по данным Управление данными подразумевает эффективную, экономичную и безопасную организацию процессов сбора, хранения и использования данных. Его целью является оптимизация управления данными сотрудниками, компаниями и подключенными устройствами с соблюдением политик и правил таким образом, чтобы они могли принимать решения и действовать наиболее выгодным для компании образом.
Еще 30 лет назад была образована международная ассоциация управления данными DAMA (Data Management Association International, dama.org), которая объединила профессионалов в области управления данными по всему миру, занимающихся сбором, систематизацией и продвижением лучших практик. Главными задачами DAMA являются выработка общей терминологии, развитие структуры знаний и системы подходов к управлению данными. Для этого ассоциация выпускает руководства (DAMA-DMBOK) к своду знаний по управлению данными (Data Management Body of Knowledge, DMBOK), первое издание которого увидело свет в 2009 году.
Пирамида DMBOK2 разработана Питером Айкеном и включает все области знаний об управлении данными из DAMA DMBOK2(доработанное издание 2014 года), а также учитывает то, как в компаниях обычно начинают работать с данными (без стратегии управления данными).
Пирамида помогает понять, на каком этапе компания находится, и как двигаться дальше, чтобы выстроить надежные процессы управления данными.
Среди проблем управления данными выделяют следующее:
- Данные легко скопировать и отправить куда угодно.
- Одними и теми же данными могут одновременно пользоваться множество людей.
- Многие способы использования данных порождают еще больше данных.
- В случае утери организацией своих уникальных данных заменить их будет нечем, а восстановить невозможно или непомерно дорого.
- Большинство информационных транзакций предусматривают обмен данными.
- Компания накапливает огромный объём данных, о которых сама даже не догадывается.
- Данные необходимо надежно хранить, а это стоит денег.
- Данные должны быть качественными.
Если в организации данные и операции над ними осуществляются, к примеру, в Excel, то высока вероятность возникновения вышеуказанных проблем. Использование информационных систем класса Business Intelligence может помочь компании не допустить лишних издержек на их исправление. В таблице представлено сводное сравнение функциональностей MS Excel и BI-системы Analytic Workspace:
Критерий сравнения | MS Excel | Analytic Workspace |
---|---|---|
Подключение к источникам данных | Подключение к внешним источникам через интеграцию Power Query | Возможность работы одновременно с несколькими различными источниками данных |
Объем данных | До миллиона строк | Big Data (свыше миллиона строк) |
Обработка и трансформация данных | Широкие возможности сложных вычислений и выстраивания корреляций для аналитики | Встроенный ETL-модуль предоставляет возможность глубокой трансформации данных для решения сложных аналитических задач |
Построение моделей данных | Возможность реализации сложных моделей построением сложных формул, VBA и Python | Построение моделей данных осуществляется drag-and-drop способом, не требует углубленных навыков программирования |
Визуализация | 15 категорий различных типов визуализации данных | Более 20 видов визуализации, удобные дашборды |
Разграничение доступа к данным | Возможна защита паролем на уровне файла, однако разработчик официально предупреждает, что это не является стопроцентной защитой персональных данных | Ролевая модель доступа к данным вплоть до уровня отдельных информационных панелей с возможностью расширения полномочий |
Внедрение и доступность | Внедрен повсеместно, однако невозможно в настоящее время приобретение полнофункциональной коробочной версии | Внесен в реестр отечественного ПО, обладает высоким импортозамещающим потенциалом |
Стоимость | Официально недоступен, а аналоги (Google Sheets, МойОфис Таблица, Libre Office Calc и т.д.) – значительно уступают по функциональности | Стоимость 1 лицензии разработчика: от 5 000 руб/месяц |
Отдельно стоит обратить внимание на качество данных. Без этого все затраты на сбор, хранение и защиту данных, будут потрачены напрасно. Необходимо тесно работать с конечными потребителями данных, чтобы определить их потребности и совместно установить ключевые характеристики качества их данных. Некачественные данные приведут к неверным решениям и негативным последствиям.
Таким образом, грамотно выстроенная работа с данными является показателем зрелости информационной политики организации. При правильно выстроенных процессах управления данными возможно увеличить эффективность организации и снизить издержки.