共计 6038 个字符,预计需要花费 16 分钟才能阅读完成。
1 Kafka 背景介绍
1.1 创建背景
Kafka 是一个分布式消息系统,由 LinkedLn 使用 Scala 编写,用作 LinkedLn 的活动流和运营数据处理管道的基础,具有高水平扩展和高吞吐量。它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。目前越来越多的开源分布式处理系统如 Apache Flume、Apache Storm、Spark、ElasticSearch 都支持与 Kafka 集成。
活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。运营数据指的是服务器的性能数据(CPU、IO 使用率、请求时间、服务日志等等数据 )。运营数据的统计方法种类繁多。近年来,活动和运营数据处理已经成为了网站软件产品特性中一个至关重要的组成部分,这就需要一套稍微更加复杂的基础设施对其提供支持。
1.2 设计目标
Kafka 是一种分布式的、基于发布 / 订阅的消息系统,主要设计目标如下:
以时间复杂度为 O(1) 的方式提供消息持久化能力,即使对 TB 级以上数据也能保证常数时间复杂度的访问性能。
高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒 100K 条以上消息的传输。
支持 Kafka Server 间的消息分区及分布式消费,同时保证每个 Partition 内的消息顺序传输。
同时支持离线数据处理和实时数据处理。
支持在线水平扩展。
1.3 消息系统
为何使用消息系统,主要基于以下几点考虑:
解耦。 在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。消息系统在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。
冗余。 有些情况下处理数据的过程会失败,除非数据被持久化,否则将造成数据丢失。消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的 ” 插入 - 获取 - 删除 ” 范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。
扩展性。 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。
灵活性 / 峰值处理能力。 在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见;如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。
可恢复性。 系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。
顺序保证。 在多数使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka 保证了一个 Partition 内的消息的有序性。
缓冲。 在任何重要的系统中,都会有需要不同的处理时间的元素。例如,加载一张图片比应用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高效率的执行——写入队列的处理会尽可能的快速。该缓冲有助于控制和优化数据流经过系统的速度。
异步通信。 很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。
2 Kafka 相关概念
2.1 AMQP 协议
AMQP 即 Advanced MessageQueuing Protocol, 是一个提供统一消息服务的应用层标准高级消息队列协议, 是应用层协议的一个开放标准, 为面向消息的中间件设计。基于此协议的客户端与消息中间件可传递消息,不受客户端 / 中间件不同产品、不同开发语言等条件的限制。AMQP 协议模型如下图所示。
消费者(Consumer):从消息队列中请求消息的客户端应用程序。
生产者(Producer):向 broker 发布消息的客户端应用程序。
AMQP 服务器端(Broker):用来接收生产者发送的消息并将这些消息路由给服务器中的队列。
2.2 Kafka 架构
Kafka 以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个 Broker。生产者通过网络将消息发送到 Kafka 集群,集群向消费者提供消息,客户端和服务端通过 TCP 协议通信,其架构如下图所示。Kafka 提供了 Java 客户端,并且对多种语言都提供了支持。
主题(Topic):对一组消息的归纳。一个主题类似新闻中的体育、娱乐、教育等分类概念,在实际工程中通常一个业务一个主题。
分区(Partition):一个 Topic 中的消息数据按照多个分区组织,分区是 Kafka 消息队列组织的最小单位,可以看作是一个先入先出(FIFO)的队列。每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。分区中的每个消息都有一个连续的序列号叫做 offset, 用来在分区中唯一的标识这个消息。
在一个可配置的时间段内,Kafka 集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为 2 天,那么在一个消息被发布的两天时间内,它都是可以被消费的,之后它将被丢弃以释放空间。Kafka 的性能是和数据量无关的常量级的,所以保留太多的数据并不是问题。
实际上每个 consumer 唯一需要维护的数据是消息在日志中的位置,也就是 offset。这个 offset 由 consumer 来维护:一般情况下随着 consumer 不断的读取消息,offset 的值不断增加,但其实 consumer 可以以任意的顺序读取消息,比如它可以将 offset 设置成为一个旧的值来重读之前的消息。
每个分区在 Kafka 集群的若干服务中都有副本,这些持有副本的服务可以共同处理数据和请求,副本数量是可以配置的。副本使 Kafka 具备了容错能力:每个分区都有一个服务器作为 Leader,零或若干服务器作为 Follower,Leader 负责处理消息的读和写,Follower 则复制 Leader。如果 Leader 宕机了,Follower 中的一台则会自动成为新的 Leader。集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的 Leader,同时作为其他分区的 Follower,这样整个集群就会有较好的负载均衡。
Producer 将消息发布到它指定的 Topic 中, 并负责决定发布到哪个分区。通常可由负载均衡机制随机选择分区,也可以通过特定的分区函数选择分区。使用的更多的是第二种。
发布消息通常有两种模式:队列模式和发布—订阅模式。队列模式中多个 Consumer 可以同时从服务端读取消息,每个消息只被其中一个 Consumer 读到;发布—订阅模式中消息被广播到所有的 Consumer 中。Consumer 可以加入一个 Consumer 组,共同竞争一个 Topic,Topic 中的消息将被分发到组中的一个成员中。如果所有的 Consumer 都在一个组中,这就成为了传统的队列模式。如果所有的 Consumer 都在不同的组中,这就成为了发布—订阅模式。更常见的是,每个 Topic 都有若干数量的 Consumer 组,每个组都是一个逻辑上的订阅者,为了容错和更好的稳定性,每个组由若干 Consumer 组成。这其实就是一个发布—订阅模式,只不过订阅者是组而不是单个 Consumer。
如下所示的 Kafka 集群由两台机器组成,总共有 4 个分区和 2 个 Consumer 组,A 组有 2 个 Consumer 而 B 组有 4 个。
2.3 对比传统消息系统
相比传统的消息系统,Kafka 可以很好的保证消息的有序性:
传统的队列在服务器上保存有序的消息,如果多个 Consumer 同时从这个服务器消费消息,服务器就会以消息存储的顺序向 Consumer 分发消息。虽然服务器按顺序发布消息,但是消息是被异步的分发到各 Consumer 上的,所以当消息到达时可能已经失去了原来的顺序,这意味着并发消费将导致顺序错乱。为了避免故障,这样的消息系统通常使用“专用 Consumer”的概念,其实就是只允许一个消费者消费消息,当然这就意味着失去了并发性。
在这方面 Kafka 做的更好。通过分区的概念,Kafka 可以在多个 Consumer 组并发的情况下提供较好的有序性和负载均衡。将每个分区只分发给一个 Consumer 组,一个分区就只被这个组的一个 Consumer 消费,这样就可以顺序的消费这个分区的消息。因为有多个分区,依然可以在多个 Consumer 组之间进行负载均衡。注意 Consumer 组的数量不能多于分区的数量,也就是有多少分区就允许多少并发消费。
Kafka 只能保证一个分区之内消息的有序性,在不同的分区之间是不可以的,这已经可以满足大部分应用的需求。如果需要 Topic 中所有消息的有序性,那就只能让这个 Topic 只有一个分区,当然也就只有一个 Consumer 组消费它。
3 环境准备
安装 Kafka 集群之前,需要首先安装 JDK 和 Zookeeper 集群,同时也需要对集群中各节点机器的 Linux 环境进行配置,其具体方法请参考我的另一篇文章《搭建 Hadoop2.0 高可用集群 http://www.linuxidc.com/Linux/2016-08/134180.htm》。我的 Kafka 集群就在此集群基础上进行安装配置。
4 搭建 Kafka 集群
// 在 Hadoop-master1 节点解压 kafka 安装包
$ tar-xvf kafka_2.11-0.10.0.0.tgz
// 进入 kafka 工作目录并���见一个 logs 目录
$ cd kafka_2.11-0.10.0.0/
$ mkdir logs
// 编辑配置文件 server.properties
$ vim config/server.properties
# 设置日志存放的目录
log.dirs=/home/hadoop/app/kafka_2.11-0.10.0.0/logs
# 设置分区数
num.partitions=2
# 设置 zookeeper 地址
zookeeper.connect=hadoop-slave1:2181,hadoop-slave2:2181,hadoop-slave3:2181
# 设置服务器接收消息的最大字节数为 5M
message.max.bytes=5242880
# 设置副本个数为 2
default.replication.factor=2
# 设置取消息的最大字节数为 5M
replica.fetch.max.bytes=5242880
// 将 kafka 工作目录从 hadoop-master1 节点复制到 hadoop-master2 节点
$ cd ~/app/
$ scp-r kafka_2.11-0.10.0.0/ hadoop-master2:/home/hadoop/app/
// 在 hadoop-master2 节点的 kafka 配置文件 server.properties 中修改 broker.id
$ cd app/kafka_2.11-0.10.0.0/config/
$ vim server.properties
broker.id=1
// 分别在 hadoop-master1 和 hadoop-master2 节点配置 kafka 环境变量
$ cd ~
$ vim .bash_profile
export KAFKA_HOME=/home/hadoop/app/kafka_2.11-0.10.0.0
export PATH=$PATH:$KAFKA_HOME/bin
$ source .bash_profile
// 分别在 hadoop-master1 和 hadoop-master2 节点启动服务
$ kafka-server-start.sh-daemon $KAFKA_HOME/config/server.properties
$ jps
5 功能测试
// 创建 topic,名称为 test, 只有 1 个副本和一个分区
$ kafka-topics.sh –create –zookeeperhadoop-slave1:2181 –replication-factor 1 –partitions 1 –topic test
// 查看 topic
$ kafka-topics.sh –list –zookeeperhadoop-slave1:2181
$ kafka-topics.sh –describe–zookeeper hadoop-slave1:2181 –topic test
// 在 hadoop-master2 节点启动一个 consumer
$ kafka-console-consumer.sh –zookeeperhadoop-slave1:2181 –topic test –from-beginning
// 在 hadoop-master1 节点启动一个 producer 并发送几条消息
$ kafka-console-producer.sh–broker-list localhost:9092 –topic test
// 在 hadoop-master2 节点查看是否消费者是否接收到消息
CentOS 7.2 部署 Elasticsearch+Kibana+Zookeeper+Kafka http://www.linuxidc.com/Linux/2016-11/137636.htm
CentOS 7 下安装 Logstash ELK Stack 日志管理系统 http://www.linuxidc.com/Linux/2016-08/134165.htm
Apache Kafka 代码实例 http://www.linuxidc.com/Linux/2013-11/92754.htm
Apache Kafka 教程笔记 http://www.linuxidc.com/Linux/2014-01/94682.htm
Apache kafka 原理与特性 (0.8V) http://www.linuxidc.com/Linux/2014-09/107388.htm
Kafka 部署与代码实例 http://www.linuxidc.com/Linux/2014-09/107387.htm
Kafka 介绍和集群环境搭建 http://www.linuxidc.com/Linux/2014-09/107382.htm
Kafka 的详细介绍 :请点这里
Kafka 的下载地址 :请点这里
本文永久更新链接地址 :http://www.linuxidc.com/Linux/2016-12/138724.htm