数据湖
一周新知
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖通常是所有企业数据的单一存储,用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。
一、特征
从架构上看,数据湖有以下四个特征:
1.数据接入:数据湖提供各种类型数据的接入,包括数据库中的表、各种格式的文件、数据流、 ETL工具转换后的数据、应用API获取的数据等等,并自动生成元数据信息。
2.数据存储:数据湖存储的数据量大、来源多,并且是以原始格式存储,不同于数据仓库的结构化存储方式,数据湖以自然格式存储数据。
3.数据处理:支持数据的验证、清洗、聚合、权限管理以及数据安全等。
4.数据应用:除了BI、报表分析、可视化分析、高级分析外,也适用于机器学习。二、价值
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。三、隐忧
数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘。数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本。在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以易于读取的格式存储,像是JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。
责编 | 郭文君 张克栋
编辑 | 赵 凯
校对 | 高 越
文字 | 《一周新知》根据网络资料整理
图片 | 来源于网络
扫码关注阳泉改革动态
地方风土人情
转型发展实践