Spark | 四十七、DStream优雅的关闭和恢复
Spark | 四十七、DStream优雅的关闭和恢复
|
[toc]为什么说优雅的关闭呢?相对于暴力关闭(stop),优雅的关闭可以从检查点中恢复中断的数据一、优雅的关闭流式任务需要 7*24 小时执行,但是有时涉及到升级代码需要主动停止程序,但是分布式程序,没办法做到一个个进程去杀死,所有配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内部程序关闭
Spark | 四十六、DStream输出
Spark | 四十六、DStream输出
|
[toc]一、DStream惰性执行输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与RDD 中的惰性求值类似,如果一个 DStream 及其派生出的DStream 都没有被执行输出操作,那么这些DStream 就都不会被求值。如果 Streami
Spark | 四十五、DStream转换
Spark | 四十五、DStream转换
|
[toc]DStream 上的操作与 RDD 的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window 相关的原语。一、无状态转化操作
Spark | 四十四、SparkStreaming接入kafka数据源
Spark | 四十四、SparkStreaming接入kafka数据源
|
[toc]本篇没有实际操作一、版本选型ReceiverAPI:需要一个专门的Executor 去接收数据,然后发送给其他的 Executor 做计算。存在的问题,接收数据的Executor 和计算的Executor 速度会有所不同,特别在接收数据的Executor 速度大于计算的Executor 速
Spark | 四十三、SparkStreaming自定义数据源
Spark | 四十三、SparkStreaming自定义数据源
|
[toc]sparkStreaming的监听数据来源有很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。一、RDD队列比如我们使用队列,把数据输送给sparkStreaming进行计算!通过使用 ssc.queueStream(queueOfRDDs)
Spark | 四十二、SparkStreaming初次使用
Spark | 四十二、SparkStreaming初次使用
|
[toc]sparkStreaming是干什么的?又是怎样使用的?一、环境准备(netcat)我的学习环境为windows,没有nc环境,所以第一步是先安装nc!1. 下载netcat下载地址:https://eternallybored.org/misc/netcat/2. 解压下载后为压缩包,进
Spark | 四十一、SparkStreaming概述
Spark | 四十一、SparkStreaming概述
|
[toc]一、接近sparkstreamingSpark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、
Spark | 四十、SparkSQL案例-各区域热门商品Top3
Spark | 四十、SparkSQL案例-各区域热门商品Top3
|
0 评论
[toc]一、需求简介这里的热门商品是从点击量的维度来看的,计算各个区域前三大热门商品,并备注上每个商品在主要城市中的分布比例,超过两个城市用其他显示。例如:| 地区 | 商品名称 | 点击次数 | 城市备注 || -------- | ---------
Spark | 三十九、SparkSQL之加载和保存二
Spark | 三十九、SparkSQL之加载和保存二
|
0 评论
[toc]一、MySQLSpark SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame 一系列的计算后,还可以将数据再写回关系型数据库中。1. spark-shell中如果使用 spark-shell 操作,可在启动shell 时指定相关的数据
Spark | 三十八、SparkSQL之加载和保存一
Spark | 三十八、SparkSQL之加载和保存一
|
0 评论
[toc]一、通用的加载和保存方式SparkSQL 提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL 默认读取和保存的文件格式为 parquet1. 加载数据spark.read.load 是加载数据的通用方法如果读取不