Spark | 四十七、DStream优雅的关闭和恢复
Spark | 四十七、DStream优雅的关闭和恢复
|
[toc]为什么说优雅的关闭呢?相对于暴力关闭(stop),优雅的关闭可以从检查点中恢复中断的数据一、优雅的关闭流式任务需要 7*24 小时执行,但是有时涉及到升级代码需要主动停止程序,但是分布式程序,没办法做到一个个进程去杀死,所有配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内部程序关闭
Spark | 四十六、DStream输出
Spark | 四十六、DStream输出
|
[toc]一、DStream惰性执行输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与RDD 中的惰性求值类似,如果一个 DStream 及其派生出的DStream 都没有被执行输出操作,那么这些DStream 就都不会被求值。如果 Streami
Spark | 四十五、DStream转换
Spark | 四十五、DStream转换
|
[toc]DStream 上的操作与 RDD 的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window 相关的原语。一、无状态转化操作
Spark | 四十四、SparkStreaming接入kafka数据源
Spark | 四十四、SparkStreaming接入kafka数据源
|
[toc]本篇没有实际操作一、版本选型ReceiverAPI:需要一个专门的Executor 去接收数据,然后发送给其他的 Executor 做计算。存在的问题,接收数据的Executor 和计算的Executor 速度会有所不同,特别在接收数据的Executor 速度大于计算的Executor 速
Spark | 四十三、SparkStreaming自定义数据源
Spark | 四十三、SparkStreaming自定义数据源
|
[toc]sparkStreaming的监听数据来源有很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。一、RDD队列比如我们使用队列,把数据输送给sparkStreaming进行计算!通过使用 ssc.queueStream(queueOfRDDs)
Spark | 四十二、SparkStreaming初次使用
Spark | 四十二、SparkStreaming初次使用
|
[toc]sparkStreaming是干什么的?又是怎样使用的?一、环境准备(netcat)我的学习环境为windows,没有nc环境,所以第一步是先安装nc!1. 下载netcat下载地址:https://eternallybored.org/misc/netcat/2. 解压下载后为压缩包,进
Spark | 四十一、SparkStreaming概述
Spark | 四十一、SparkStreaming概述
|
[toc]一、接近sparkstreamingSpark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、