共计 2262 个字符,预计需要花费 6 分钟才能阅读完成。
在生产集群上运行 topology 跟本地模式差不多。下面是步骤:
1)定义 topology(如果是 java 的话,用 TopologyBuilder)
2) 使用 StormSubmitter 来把 topology 提交到集群。StormSubmitter 的参数有:topology 的名字,topology 的配置对象,以及 topology 本身。
比如:
1 2 3 4 5 | Config conf = new Config(); conf.setNumWorkers( 20 ); conf.setMaxSpoutPending( 5000 ); StormSubmitter.submitTopology( "name" ,
conf, topology); |
3) 创建一个包含你的程序代码以及你代码所依赖的依赖包的 jar 包(有关 storm 的 jar 包不用包括,这些 jar 包会在工作节点上自动被添加到 classpath 里面去)。如果你使用 maven, 那么插件:Maven Assembly Plugin 可以帮你打包,只要把下面的配置加入你的 pom.xml。
01 02 03 04 05 06 07 08 09 10 11 12 13 | < plugin >
< artifactId >maven-assembly-plugin</ artifactId >
< configuration >
< descriptorRefs >
< descriptorRef >jar-with-dependencies</ descriptorRef >
</ descriptorRefs >
< archive >
< manifest >
< mainClass >com.path.to.main.Class</ mainClass >
</ manifest >
</ archive >
</ configuration > </ plugin > |
然后运行 mvn assembly:assembly 就可以打包了. 再说一下,不用包括 storm 相关的 jar 包,它们会自动加到 classpath 里面。
4)用 storm 客户端去提交 jar 包:
1 | storm jar allmycode.jar org.me.MyTopology arg1 arg2 arg3 |
storm jar 会把代码提交到集群并且配置 StormSubmitter 类以让它和正确的集群进行通信。在这个例子里面,上传 jar 包之后 storm jar 命令会调用 org.me.MyTopology 的 main 函数,参数是 arg1, arg2, arg3。关于如何配置你的 storm 客户端去和 storm 集群进行通信可以看下配置 storm 开发环境。
常见配置
有很多 topology 级的配置可以设。这里有关于所有配置的清单,以”TOPOLOGY”打头的配置是 topology 级别的配置,可以覆盖全局级别的配置。下面是一些比较常见的:
1)Config.TOPOLOGY_WORKERS: 这个设置用多少个工作进程来执行这个 topology。比如,如果你把它设置成 25,那么集群里面一共会有 25 个 java 进程来执行这个 topology 的所有 task。如果你的这个 topology 里面所有组件加起来一共有 150 的并行度,那么每个进程里面会有 6 个线程(150 / 25 = 6)。
2)Config.TOPOLOGY_ACKERS: 这个配置设置 acker 线程的数目。Ackers 是 Storm 的可靠性 API 的一部分,关于 storm 的可靠性 API 可以看下:Twitter Storm 如何保证消息不丢失。
3)Config.TOPOLOGY_MAX_SPOUT_PENDING: 这个设置一个 spout task 上面最多有多少个没有处理的 tuple(没有 ack/failed)回复,我们推荐你设置这个配置,以防止 tuple 队列爆掉。
4)Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS: 这个配置 storm 的 tuple 的超时时间 – 超过这个时间的 tuple 被认为处理失败了。这个设置的默认设置是 30 秒,对于大多数的 topology 都已经足够了。关于 storm 的可靠性 API 可以看看 Twitter Storm 如何保证消息不丢失。
5)Config.TOPOLOGY_SERIALIZATIONS: 为了在你的 tuple 里面使用自定义类型,你可以用这个配置注册自定义 serializer。
终止一个 topology
要终止一个 topology, 执行:
1 | storm kill {stormname} |
其中 {stormname} 是提交 topology 给 storm 集群的时候指定的名字。
storm 不会马上终止 topology。相反,它会先终止所有的 spout,让它们不再发射任何新的 tuple,storm 会等 Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS 秒之后才杀掉所有的工作进程。这会给 topology 足够的时间来完成所有我们执行 storm kill 命令的时候还没完成的 tuple。
更新一个运行中的 topology
为了更新一个正在运行的 topology, 唯一的选择是杀掉正在运行的 topology 然后重新提交一个新的。一个计划中的命令是实现一个 storm swap 命令来运行时更新 topology,并且保证前后两个 topology 不会同时在运行,同时保证替换所造成的“停机”时间最少。
监控 topology
监控 topology 的最好的方法是使用 Storm UI。Storm UI 提供有关 task 里面发生的错误以及 topology 里面每个组件的吞吐量和性能方面的统计信息。同时你可以看看集群里面工作机器上面的日志。