Hive之Hive压缩

  • 时间:
  • 浏览:0

         <value>org.apache.hadoop.io.compress.SnappyCodec</value>

         mapred.output.compress* </description>

         and other options are determined from hadoop config variables

         <value>true</value>

set hive.exec.compress.intermediate=true;

<property>

                  are determined from hadoop config variables mapred.output.compress* </description>

set hive.exec.compress.output=true;

</property>

GZip 和 BZip2压缩格式是所有最近的hadoop版本支持的,以后 linux本地的库也支持你你这人格式的压缩和解压缩。

</property>

1、是是是不是选择文件压缩:

Snappy是最近打上去的压缩格式,都时需被委托人打上去你你这人压缩格式

压缩配置:

                  multiple map-reduce jobs are compressed. The compression codec and other options

         <description> This controls whether intermediate files produced by Hive

上面压缩就是我正确处理作业map任务和reduce任务之间的数据,对于上面压缩,最好选择有两个多节省CPU耗时的压缩辦法

LZO是总爱 用到的压缩格式

         <description> This controls whether intermediate files produced by Hive between

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

在hadoop作业执行过程中,job执行带宽更多的是局限于I/O,而有的是受制于CPU。以后 是以前,通过文件压缩都时需提高hadoop性能。然而,以后 作业的执行带宽受限于CPU的性能,呢么压缩文件以后 就不离米 ,以后 文件的压缩和解压会花费掉较多的时间。当然选择适合集群最优配置的最好辦法 是通过实验测试,以后 衡量结果。

set hive.intermediate.compression.type=BLOCK;

任务上面压缩

GZip 和 BZip2压缩都时需保证最小的压缩文件,以后 过于消耗时间;Snappy和LZO压缩和解压缩调快,以后 压缩的文件较大。好多好多 怎样选择压缩格式,时需根据具体的需求决定。(I/O,CPU)

         <name>hive.exec.compress.intermediate</name>

mapred-site.xml 中设置以后 在 hive-site.xml文件。 SnappyCodec 是有两个多较好的压缩格式,CPU消耗较低。

         between multiple map-reduce jobs are compressed. The compression codec

BZip2 and LZO支持压缩文件分割

         <name>mapred.map.output.compression.codec</name>

<property>

  map/reduce 输出压缩(一般采用序列化文件存储)

2、压缩格式

hadoop压缩有有两个多默认的压缩格式,当然都时需通过修改mapred.map.output.compression.codec属性,使用新的压缩格式,你你这人变量都时需在

set mapred.output.compression.type=BLOCK;

3、上面压缩

set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;(常用)