Hadoop3.x | 三十三、MapReduce之常见错误及解决
Hadoop3.x | 三十三、MapReduce之常见错误及解决
|
[toc]本篇为错误收集,学习MapReduce遇到的各种问题,以及解决方案!1. 导包容易出错。尤其Text和CombineTextInputFormat。2. map参数设置Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable.
Hadoop3.x | 三十二、MapReduce之数据压缩
Hadoop3.x | 三十二、MapReduce之数据压缩
|
[toc]一、概述1. 压缩的好处和坏处压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。2. 压缩原则运算密集型的Job,少用压缩IO密集型的Job,多用压缩二、MR支持的压缩编码1. 压缩算法对比介绍压缩格式Hadoop自带?算法文件扩展名是否可切片换成压缩格式后,原来的
Hadoop3.x | 三十一、MapReduce之ETL清洗
Hadoop3.x | 三十一、MapReduce之ETL清洗
|
[toc]一、数据清洗“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务MapReduce程序之前,往往要
Hadoop3.x | 三十、MapReduce之join案例
Hadoop3.x | 三十、MapReduce之join案例
|
[toc]一、Reduce JoinMap端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分
Hadoop3.x | 二十九、MapReduce整体流程总结
Hadoop3.x | 二十九、MapReduce整体流程总结
|
[toc]经过前边各个小模块,把自己提交的数据存储到hdfsmap读取并分片map打散运算网络优化(分区、排序、合并)reduce优化(拉取小模块合并)reduce合并运算自定义输出outputformat
Hadoop3.x | 二十八、OutputFormat数据输出
Hadoop3.x | 二十八、OutputFormat数据输出
|
[toc]一、OutputFormat接口实现类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。OutputFormat实现类默认输出格式TextOutputForma
Hadoop3.x | 二十七、shuffle机制之Combiner 合并
Hadoop3.x | 二十七、shuffle机制之Combiner 合并
|
[toc]combiner:可以理解为map阶段下的reduce,提前合并,减少网络传输一、combiner概念Combiner是MR程序中Mapper和Reducer之外的一种组件。Combiner组件的父类就是Reducer。Combiner和Reducer的区别在于运行的位置Combiner是
Hadoop3.x | 二十六、shuffle机制之WritableComparable排序
Hadoop3.x | 二十六、shuffle机制之WritableComparable排序
|
[toc]一、排序概述排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask
Hadoop3.x | 二十五、shuffle机制之Partition
Hadoop3.x | 二十五、shuffle机制之Partition
|
[toc]Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。一、Partition分区1. 问题引出要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)2. 默认Partitioner分区public class Has
Hadoop3.x | 二十四、Mapreduce流程map阶段CombineTextInputFormat 案例实操
Hadoop3.x | 二十四、Mapreduce流程map阶段CombineTextInputFormat 案例实操
|
[toc]本案例为小文件合并为一个maptask进程,进行处理。当然这也是处理小文件的一个解决方案!一、CombineTextInputFormat 案例实操1. 需求将输入的大量小文件合并成一个切片统一处理。输入数据准备 4 个小文件期望期望一个切片处理 4 个文件2. 编写代码编写mapper代