添加lzoforhivetable
來源:懂視網(wǎng)
責(zé)編:小采
時(shí)間:2020-11-09 13:25:02
添加lzoforhivetable
添加lzoforhivetable:hivehiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個(gè)lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr hiveR
導(dǎo)讀添加lzoforhivetable:hivehiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個(gè)lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr hiveR
![](https://img.51dongshi.com/20210302/wz/82958252.jpg)
hive?hiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個(gè)lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr
hive?–hiveconf hive.exec.compress.output=true –hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec
之后為其每個(gè)lzo塊添加index:
hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.DistributedLzoIndexer ?path/xxx.lzo ? ?注意(沒有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec選項(xiàng)只設(shè)置-jobconf mapred.output.compress=true 選項(xiàng)的話 reduce作業(yè)輸出文件的格式為.lzo_deflate )
之所以要為其添加index的原理:
這樣會按照block大小來切分塊。(速度變快,但是多消耗cpu時(shí)間。map數(shù)目大量增加)
如果不對文件建立lzo索引則不會按照block來切分塊
使用LZO過程會發(fā)現(xiàn)它有兩種壓縮編碼可以使用,即LzoCodec和LzopCodec,下面說說它們區(qū)別:
- LzoCodec比LzopCodec更快, LzopCodec為了兼容LZOP程序添加了如?bytes signature, header等信息
- 如果使用?LzoCodec作為Reduce輸出,則輸出文件擴(kuò)展名為”.lzo_deflate”,它無法被lzop讀??;如果使用LzopCodec作為Reduce輸出,則擴(kuò)展名為”.lzo”,它可以被lzop讀取
- 生成lzo index job的”DistributedLzoIndexer“無法為 LzoCodec,即 “.lzo_deflate”擴(kuò)展名的文件創(chuàng)建index
- ”.lzo_deflate“文件無法作為MapReduce輸入,”.LZO”文件則可以。
- 綜上所述得出最佳實(shí)踐:map輸出的中間數(shù)據(jù)使用 LzoCodec,reduce輸出使用 LzopCodec
原文地址:添加lzo for hive table, 感謝原作者分享。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。
添加lzoforhivetable
添加lzoforhivetable:hivehiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個(gè)lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr hiveR
标签:福寿螺时间:2024-09-11 09:24:02
标签:深中通道通车时间:2024-07-01 11:16:29
标签:肺炎养臭水时间:2024-06-06 10:02:27