文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html
Begin!
一、概述
使用了HBase提供的Export与Import工具。Export:http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/mapreduce/Export.htmlImport:http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/mapreduce/Import.html看到这两个类所在目录我们了解到,Export与Import的实质是MapReduce任务。关于这两个工具API中写的很清楚:Export an HBase table. Writes content to sequence files up in HDFS. Use Import to read it back in again.将HBase的表导出为HDFS的sequence files。Export如其名,只是导出工具,如何完成备份功能呢?
二、功能实验
测试过程涉及很多数据,这里仅提供重要结论:1、Export是以表为单位导出数据的,若想完成整库的备份需要执行n遍。2、Export在shell中的调用方式类似如下格式:./hbase org.apache.hadoop.hbase.mapreduce.Export 表名 备份路径 (版本号) (起始时间戳) (结束时间戳)Export [-D <property = value>]* <tableName> <outputDir> [<versions> [<startTime> [<endTime>]]]括号内为可选项,例如./hbase org.apache.hadoop.hbase.mapreduce.Export "contentTbl" /home/codeevoship/contentBackup20120920 1 123456789备份contentTbl这张表到/home/codeevoship/contentBackup20120920目录下(最后一级目录必须由Export自己创建),版本号为1,备份记录从123456789这个时间戳开始到当前时间内所有的执行过put操作的记录。注意:为什么是所有put操作记录?因为在备份时是扫描所有表中所有时间戳大于等于123456789这个值的记录并导出。如果是delete操作,则表中这条记录已经删除,扫描时也无法获取这条记录信息。3、当不指定时间戳时,备份的就是当前完整表中的数据。
三、实施细节
1、如何在增量备份时体现出对数据的删除操作?由于Export按时间戳备份只能反映出Put过的表项,若我在一个备份(增量包)时间区间内删除了某条已有记录,当数据库回档时,这条被删除的记录又会出现在我的表中。因此,我将所有的删除操作替换为Put操作:a、给每行数据添加了一个无效标志位,在删除记录时使用Put给该标志位写为1。b、在单条查询时,根据rowKey取出记录后会根据这个标志位判断这条记录是否已被“删除”,以此决定是否返回这条记录。在多条查询时(scan),使用列值过滤器,过滤出所有这个标志位不为1的记录。(可参见我之前的《HBase 条件查询》 http://www.linuxidc.com/Linux/2013-03/81358.htm )2、在备份过程中新增的数据是否会影响备份内容的准确性?可以指定小于等于当前时刻的结束时间戳,以便将需要备份的数据范围明确。 3、如何备份到其他机器?a、Export支持提供地址的备份。最简单的方法,直接把远端存储挂载到本地,然后使用本地路径。b、使用API调用时,Path如果使用file:///home/codeevoship/backup,代表使用本地文件系统。若直接写为/home/codeevoship 代表使用HDFS层的路径。在使用Shell调用时则相反。4、如何使用API调用?通过MapReduce的Job:http://hadoop.apache.org/docs/r0.20.2/api/org/apache/hadoop/mapreduce/Job.html先通过Export类提供的方法创建Job实例,再调用Job的
submit()或waitForCompletion(boolean verbose);异步与同步。 四、其他解决方案
1、HDFS层的HDFS Replication或DistCp2、Cluster ReplicationHBase在处理中文字符串时的问题HBase 定期备份相关资讯 Hbase HBase备份
- HBase 参考文档翻译之 Getting (08月15日)
- HBase应用开发回顾与总结系列 (01月10日)
- Apache HBase 2015年发展回顾与未 (01月04日)
| - 为啥HBase需要搭建SQL引擎层 (02月19日)
- HBase表数据分页处理 (01月10日)
- Hbase VS Oracle (11/21/2015 20:22:40)
|
本文评论 查看全部评论 (0)