Hadoop3.x | 五十、调优之Hadoop综合调优
Hadoop3.x | 五十、调优之Hadoop综合调优
|
0 评论
[toc]一、Hadoop小文件优化方法1. Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引
Hadoop3.x | 四十九、调优之MapReduce生产经验
Hadoop3.x | 四十九、调优之MapReduce生产经验
|
0 评论
[toc]一、MapReduce跑的慢的原因MapReduce程序效率的瓶颈在于两点:1. 计算机性能CPU、内存、磁盘、网络2. I/O操作优化数据倾斜Map运行时间太长,导致Reduce等待过久小文件过多二、MapReduce常用调优参数1. MapReduce优化(上)2. MapReduce
Hadoop3.x | 四十八、调优之HDF集群迁移
Hadoop3.x | 四十八、调优之HDF集群迁移
|
0 评论
[toc]一、Apache和Apache集群间数据拷贝1. scp实现两个远程主机之间的文件复制# 推 pushscp -r hello.txt root@hadoop103:/user/atguigu/hello.txt# 拉 pullscp -r root@hadoop103:/user/atg
Hadoop3.x | 四十七、调优之HDF故障排除
Hadoop3.x | 四十七、调优之HDF故障排除
|
0 评论
[toc]注意:采用三台服务器即可,恢复到Yarn开始的服务器快照。一、NameNode故障处理1. 需求:NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode2. 故障模拟kill -9 NameNode进程[atguigu@hadoop102 current]$ kill -
Hadoop3.x | 四十六、调优之HDFS存储优化-异构存储(冷热数据分离)
Hadoop3.x | 四十六、调优之HDFS存储优化-异构存储(冷热数据分离)
|
0 评论
[toc]异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。一、存储类型和存储策略1. 关于存储类型RAM_DISK:(内存镜像文件系统)SSD:(SSD固态硬盘)DISK:(普通磁盘,在HDFS中,如果没有主动声明数据目录存储类型默认都是DISK)ARCHIVE:(没有特指
Hadoop3.x | 四十五、调优之HDFS存储优化-纠删码
Hadoop3.x | 四十五、调优之HDFS存储优化-纠删码
|
0 评论
[toc]演示纠删码和异构存储需要一共5台虚拟机。尽量拿另外一套集群。提前准备5台服务器的集群。一、纠删码原理HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。1. 纠删码操作相关
Hadoop3.x | 四十四、调优之HDFS集群扩容及缩容二
Hadoop3.x | 四十四、调优之HDFS集群扩容及缩容二
|
0 评论
[toc]三、服务器间数据均衡1. 企业经验:在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。另一种情况,就是新服役的服务器数据量比较少,需要执行集群
Hadoop3.x | 四十三、调优之HDFS集群扩容及缩容一
Hadoop3.x | 四十三、调优之HDFS集群扩容及缩容一
|
0 评论
[toc]一、添加白名单白名单:表示在白名单的主机IP地址可以,用来存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击。1. 创建黑白名单在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件创
Hadoop3.x | 四十二、调优之HDFS多目录
Hadoop3.x | 四十二、调优之HDFS多目录
|
0 评论
[toc]一、 NameNode多目录配置1. NameNode多目录特性NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性2. 具体配置如下在hdfs-site.xml文件中添加如下内容<property> <name>dfs.namen
Hadoop3.x | 四十一、调优之HDFS集群压测
Hadoop3.x | 四十一、调优之HDFS集群压测
|
0 评论
[toc]一、压测准备在企业中非常关心每天从Java后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从HDFS上拉取需要的数据?为了搞清楚HDFS的读写性能,生产环境上非常需要对集群进行压测。二、测试HDFS写性能查看服务器cpu个数cat /proc/cpuinfo| grep &quo