大数据分布式计算能力平台(数山)产品是由半云自主研发的基于分布式技术架构的海量数据离线处理平台。”数山”提供针对TB级别数据的、实时性要求不高的批量处理能力,主要应用于日志分析、机器学习、数据仓库、数据挖掘、商业智能等领域。半云“数山”以数据为中心,内建多种计算模型和服务接口,满足广泛的数据分析需求。一切服务“开通”即用,更好地赋能数据业务。

产品优势

低成本

与企业自建专有云相比,半云“数山”产品的计算存储更高效,可以降低30%~50%的采购成本。

免运维

基于半云“数山”产品一键部署的设计思路,用户只需关心作业和数据,而无需关心底层分布式架构及运维,并且部署周期短。

极致弹性扩展

用户无需受困于资源扩展难题,系统会自动扩展计算、存储、网络等资源,最大程度地节省成本。

总体框架

架构介绍
基于Hadoop、Spark、Hive、Flink 等生态大数据产品,提供数据基础设施实现数据计算与存储。“数山”将批处理计算与流计算融会贯通,使实时数据流与历史数据协同计算,实现流批一体,是半云自主研发的新一代离线计算引擎。

核心功能

集群读写
能够运行在廉价机器上、流式数据访问,而不是随机读写。面向大规模数据集,能够进行批处理、能够横向扩展
列式存储
所有数据均以列式存储,不暴露文件系统。并采用列压缩存储格式,极高的数据压缩比极大节省了用户成本。
数据多副本
多源、多主、多向复制。数据‘互通有无’、自带检测机制、自带同步机制(物理复制)。
资源监控
平台提供监控物理资源使用情况、虚拟资源使用情况,峰值,任务数,数据量等各类指标。
自动化部署
部署分单次性调度和周期型调度,“周期型”不勾选时为单次型调度,只在有效时间范围内运行一次;“周期型”勾选时为周期型调度,可以在有效时间内循环运行。

应用场景