共计 1141 个字符,预计需要花费 3 分钟才能阅读完成。
本文主要分析 storm 的 worker 进程间消息传递机制,消息的接收和处理的大概流程见下图
在 Storm 中,worker 进程内部的 thread 通信与 worker 进程间的通信有一些差别,worker 间的通信经常需要通过网络跨节点进行,Storm 使用 ZeroMQ 或 Netty(0.9 以后默认使用)作为进程间通信的消息框架。worker 进程内部通信或在同一个节点的不同 worker 的 thread 通信使用 LMAX Disruptor 来完成。
对于 worker 进程来说,为了管理流入和传出的消息,每个 worker 进程有一个独立的接收线程 (对配置的 TCP 端口 supervisor.slots.ports 进行监听)。参数 topology.receiver.buffer.size 代表接收线程一次最多能接收多少条消息,用户可以自定义配置。接收线程将收到的消息传递给对应的 executor(一个或多个) 的 incoming-queues。对应接收线程,每个 worker 存在一个独立的发送线程,它负责从 worker 的 transfer-queue 中读取消息,并通过网络发送给其他 worker,transfer-queue 的大小由参数 topology.transfer.buffer.size 来设置。transfer-queue 的每个元素实际上代表一个 tuple 的集合,当 executor 的 outgoing-queue 中的 tuple 达到一定的阀值,executor 的发送线程将批量获取 outgoing-queue 中的 tuple, 并发送到 transfer-queue 中。
每个 worker 进程控制一个或多个 executor 线程,用户可在代码中进行配置。每个 executor 有自己的 incoming-queue 和 outgoing-queue。一个 worker 进程运行一个专用的接收线程来负责将外部发送过来的消息移动到对应的 executor 线程的 incoming-queue 中,executor 中的发送线程在 outgoing-queue 到达一定的阀值后,将 outgoing-queue 中的消息批量发送给所在 worker 的 transfer-queue。executor 的 incoming-queue 和 outgoing-queue 的大小用户可以自定义配置。每个 executor 有单独的线程分别来处理 spout/bolt 的业务逻辑和从 outgoing-queue 消费数据并发送到 transfer-queue 中。
Apache Storm 的历史及经验教训 http://www.linuxidc.com/Linux/2014-10/108544.htm
Apache Storm 的详细介绍:请点这里
Apache Storm 的下载地址:请点这里