掌握数据管理原则,是在合适的时间为合适的人提供可信赖数据的基础。数据湖让您可以从多种数据来源中存储和处理所有数据(包括大数据),而无需对其预先搭建结构。您可以在数据湖中填入所有类型的数据,包括结构化、非结构化,或者多结构化数据,由此您的业务领导和分析人员可以从更多数据中得出更具创新的分析成果。
当企业在规划数据湖时,为了最大程度地利用数据湖环境的价值,应遵守九大设计原则。
大家都在谈论敏捷开发,其中最大的缺陷,就是没有认识到跨职能团队的重要性。在数据湖项目过程中使用跨职能团队有诸多好处。数据湖项目需要数据工程实施方面的知识,数据管理员的业务环境分析能力,以及数据科学家和分析人员的专业分析技能。拥有多个视角有利于企业及时获得准确且一致的业务洞察力,从而有效地满足业务需求。
近年来,自助服务数据变得日益重要。自助服务数据准备让学识渊博的业务分析人员能够在分析之前合并、转换和清洗相关数据,将这些数据变得更可信和可靠。先进的工具让用户能够将其准备好的数据集发布到协作区域,这样多个业务利益相关者便可一起访问和准备数据。此外,当业务分析人员在数据湖中探索和查找数据时,工具中的机器学习技术可以为他们提供导向经验。
随着数据在企业内分布得越来越松散,要实现数据用户所使用的自助方法,就要求在数据管理的过程中,增强以传统IT为驱动的方法。以众包的方式完成数据管理。在自助服务的环境中,每一位用户都有能力将其学科技能用来改善数据的质量和结构。通过合作的机制,业务分析人员可以帮助彼此实现共同的企业目标,即提供可信赖的数据资产。而机器学习也是通过分类算法来实现数据域发掘自动化的一种方式。
数据的人工摄入和转换是一个复杂的多步骤流程。成功的企业会利用预置连接器和高速数据摄入平台来将数据集加载和转换到数据湖中。由此数据湖可以快速地容纳新类型的数据,并扩大规模,适应不断增长的引入数据量。自动化还提高了敏捷性所需的高速迭代性和灵活性,因为采用了自动化流程,系统可以快速做出变更并杜绝了出现错误的风险。
在数据湖中加入基于规则的数据验证,并应用AI技术,就可以自动检测和纠正不完整、不准确或者不一致的数据。提早检测并修复这些异常现象,可以显著地提升商业见解的准确性和一致性。在将数据收集并转换到数据湖的过程中,可以使用数据湖规则来配置和过滤数据。数据质量评分板和仪表盘有助于提高可视性,并帮助团队成员了解应该将精力放在何处。
利用人工智能技术在非结构化的数据中发掘数据结构,然后将这一成果自动加载其他相似的、非结构化的数据,最终便可以极大地提高原本相当耗时的任务效率。基于机器学习的方法可以主动监视并检测企业内的所有数据,从而确保最大程度地保护数据,确保合规。此外,通过全方位地了解数据资产,可以由此生成一个所有数据资产的智能目录,并推断出数据资产之间的关系。像业务分析人员这样的数据使用者随后可以使用该目录来发现可能感兴趣的新数据资产,事实上,一些目录甚至可以基于机器学习技术来推荐数据资产。
遵循协同定位的原则,是将数据湖优势最大化的关键。企业需要搭建有限数量的大规模数据湖环境,并且围绕关键的业务领域进行全方位的组织。此外,在数据湖管理中充分利用数据分享、数据标签和项目工作区,可以推动数据科学家和分析人员开展必要的合作。数据使用者应当在分析工作中将彼此视为团队成员,一位分析人员在数据湖中完成工作后,可将其发布并分享给另外一位分析人员来使用。
随着需求不断增加,标准化的缺失会持续破坏数据湖的效用,因为这样的环境不适用于扩展。标准化和一致性是数据湖实现长期扩展的关键。搭建标准的流程和一致的架构,能保障数据科学家和业务分析人员专注于创新和分析,而不是数据管理工作。
通过制定标准的流程、分类标准和术语表,可以确保项目团队中的每一个人遵循相同的标准。在流程中提早设立简单的程序,从而确定关键的数据资产是什么。如何管理和应用这些数据资产,便可以使团队避免烦恼和沮丧感。制定标准的分类标准和政策,可以从根本上简化合规中的审计和衍生跟踪问题,让您始终能够知晓数据的出处,并主动保护敏感数据。