消息队列Kafka是分布式的、高吞吐量、高可扩展性消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域。阿里云全站式托管服务,用户无需部署运维,低成本、高可靠、更安全。
网站活动跟踪
实时收集网站活动数据,包括用户浏览网页、搜索以及其他行为,通过“发布订阅”模型,将不同业务数据类型发布到不同topic。
通过实时的投递,将消息流用于实时监控或业务分析,也可以实现离线处理。
方案的优势:
高吞吐:支持网站所有用户行为产生的庞大数据
弹性扩容:当网站活动带来激增数据,可快速扩容
大数据分析:对接Storm/Spark实时流计算引擎,以及Hadoop/ODPS等连线数据仓库系统
日志聚合
通过“日志收集中心”,将多台主机/应用的日志数据抽象成一个日志或事件消息流,异步低延时发送到kafka集群。
客户端可以批量提交消息,或压缩消息,生产者几乎无感知。
方案优势:
应用与分析解耦:构建应用系统和分析系统的桥梁,关联解耦
高可扩展性:当数据量增加时,通过增加节点快速水平扩展
在线/离线分析系统:支持实时在线分析系统和类似于Hadoop之类的离线分析系统
流计算处理
针对如股市走向分析、气象数据测控、网络用户行为分析等领域,通过流计算模型实时进行捕捉和处理。
根据业务需求,对数据进行计算分析,最终将结果保存或分发给需要的组件。
方案优势:
流动的数据:构建应用系统和分析系统的桥梁,关联解耦
高可扩展性:满足数据产生非常快且数据量大的扩展需求
在线/离线分析系统:对接开源Storm/Samza/Spark及EMR/Blink/StreamCompute等阿里云产品
数据中转枢纽
近年来流行的存储、搜索、流处理、时序等高性价比分布式系统因为目标单一,构建各自独立的工作流来采集每种类型的数据再导入各自专用的系统显然不切实际。利用Kafka作为数据中转枢纽,同分数据可以被导入到不同专用系统。
方案优势:
高容量存储:商业硬件上存储高容量数据,可以横向扩展的分布式系统
一对多消费模型:发布/订阅模型,支持同份数据集能够同时被消费多次
同时支持实时和批处理:本地数据持久化及PageCache,在无性能损耗的情况下能同时传送消息到实时和批处理消费者