Hadoop序列化文件SequenceFile
Hadoop序列化文件SequenceFile主要用于解决大量小文件问题,SequenceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key,value>对序列化到文件中,一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。理解点:1、二进制数据格式,在hadoop上进行mr任务时使用,一般是中间过程mr的输入输出数据2、有一定的格式:头部+内容。头部标示SEQ3、可...