联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame

HASH GAME - Online Skill Game ET 300一种采用双指纹哈希校验的重复数据删除方法技术

发布时间:2025-02-25 12:45:57  点击量:

  HASH GAME - Online Skill Game GET 300

HASH GAME - Online Skill Game GET 300一种采用双指纹哈希校验的重复数据删除方法技术

  本发明专利技术提出了一种采用双指纹哈希校验的重复数据删除方法,包括将待备份对象划分成等长的待备份数据块;判断其中一个待备份数据块的弱指纹与服务器中任意一个数据块的弱指纹是否相同,若不同,则对该数据块进行备份;若相同,则判断该数据块的强指纹与服务器中任意一个数据块的强指纹是否相同,若不同,则对该数据块进行备份;对所有待备份数据块均进行上述操作。本发明专利技术所述的重复数据删除方法首先采用计算量低的哈希函数对每个数据块进行弱校验,再采用计算量大的哈希函数进行强校验,从而避免全部数据都采用计算量大的哈希函数来校验,大大降低了校验过程中的指纹计算量,提升系列性能,为基于海量数据存储的数据备份提供可观的传输性能。

  随着计算机信息化程度的提高,人类社会已经进入信息时代,计算机已深入到社会的各行各业,越来越多的应用和计算机结合起来,人们的工作、生活对于网络的信赖性也越来越强,从而使网络系统及其数据的安全性显得越发重要。同时互联网的无限扩展更加使得数据信息呈几何级数爆炸性增长,图灵奖得主Jim Gray指出网络环境下每18个月新增的数据量等于有史以来数据量的总和。而企业的一切经营活动几乎都以这些数据为基础的,如此庞大的数据量对海量信息存储系统的可靠性提出了很大的要求。而确保数据安全的最佳途径是进行数据备份,现在的主流备份软件也陆续以服务的形式向用户提供备份恢复功能,因此在线数据备份服务成为存储领域的一个热点话题。调查中发现,云备份作为针对海量信息存储系统的一种备份服务,用户最为关注这种服务的四个方面,那就是安全性、备份速度、经济成本以及操作简便性四个方面。其中的备份速度最能体现用户对这种服务的直观感受,因此设计高效的数据传输机制显得尤为重要。而本专利技术所提出的双指纹哈希校验的重复数据删除机制着眼于指纹计算方面,能够显著提高系统性能。对基于PB乃至EB级的海量数据备份来说,如何达到可观的、用户可以接受的备份速度是非常重要的。考虑到如此庞大的数据,必然会存在一定的重复数据,因此会考虑重复数据删除技术(De-duplication),它是一种目前比较流行的存储技术,可对存储容量进行有效优化,它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。数据指纹是数据块的本质特征,理想状态是每个唯一数据块具有唯一的数据指纹,不同的数据块具有不同的数据指纹。数据块本身往往较大,因此数据指纹的目标是期望以较小的数据表示(如16、32、64、1观字节)来区别不同数据块。数据指纹通常是对数据块内容进行相关数学运算获得,从当前研究成果来看Hash函数比较接近于理想目标,比如 MD5、SHAU SHA-256、SHA-512等。另外,还有许多字符串Hash函数也可以用来计算数据块指纹。然而,遗憾的是这些指纹函数都存在碰撞问题,即不同数据块可能会产生相同的数据指纹。相对来说,MD5和SHAl系列的HASH函数具有非常低的碰撞概率,这种概率几乎小于硬盘损坏的概率,因此通常被采用作为指纹计算方法。其中,MD5是1 位的,SHAl是160 位的,SHA-X(X表示位数)则具有更低的碰撞发生概率,但同时计算量也会大大增加。因此实际操作中,必须在性能和数据安全性两个指标中做一个权衡,因为指纹的位数越多,计算量就越大,相对的指纹碰撞的概率就越低。从纯数学角度看,如果两个数据块指纹不同,则这两个数据块肯定不同。然而,如果两个数据块指纹相同,则不能断定这两个数据块是相同的,因为Hash函数会产生碰撞。 针对这种问题,目前主要有两种解决路径一是对数据指纹相同的块进行字节级比对,这种情况能百分百防止碰撞,但是花在比对上的开销是最大的;二是最大可能降低碰撞产生的概率,即采用更优的Hash函数(如MD5-128、SHA-512、SHA-1024),它可以对一段任意长度的数据/信息产生一个同定比特位(U8bits、512bits、1024bits)的信息摘要,这在理论上已经证明是非常安全的,但是它的计算量也比较庞大,特别是对于海量数据存储系统来说, 对所有数据块采用这种校验方式,将会耗费大量时间。对基于定长分块的重复数据删除技术来说,传统的技术是采用单一函数进行哈希运算,得出一个同定长度的指纹。若是指纹位数较小,则数据块检索时发生碰撞的概率就很高;若是指纹位数较大,相应的发生碰撞的概率就低,也就会花费更多的运算量。并且对基于KB级别的定长分块来说,块的数量是很庞大的,进而导致更加复杂的运算量。实际应用中,为达到较低的碰撞概率,会选用计算量较高的哈希函数进行指纹运算以降低数据块检索碰撞的概率,同时这也大大增加了数据块指纹的计算量。

  本专利技术提出了,目的在于在备份过程中从整体上减少数据指纹的计算量,提升系列性能,为基于海量数据存储的数据备份提供可观的传输性能。本专利技术提供了,包括以下步骤(1)将待备份对象划分成等长的待备份数据块; (2)选取一个待备份数据块;(3)判断该待备份数据块的弱指纹与服务器中任意一个数据块的弱指纹是否相同,若相同,则进入步骤;若不同,则对该数据块进行备份,转入步骤(5);(4)判断该待备份数据块的强指纹与服务器中任意一个数据块的强指纹是否相同,若相同,则进入步骤(5);若不同,则对该数据块进行备份,进入步骤(5);(5)重复步骤(2)到G),遍历步骤(1)中划分的所有待备份数据块。进一步的,所述弱指纹为使用第一个哈希函数计算待备份数据块得到的结果,所述强指纹为使用第二个哈希函数计算待备份数据块得到的结果,第一个哈希函数的计算量低于第二个哈希函数的计算量。进一步的,所述步骤(3)中首先判断服务器的索引表中是否存在任意一条记录的主索引与该待备份数据块的弱指纹相同,若存在,直接进入步骤;若不存在,则将该待备份数据块备份到服务器,在索引表中添加该待备份数据块的记录,并标记该待备份数据块的主索引为该弱指纹,次索引为空,转入步骤(5)。进一步的,步骤包括以下过程(4. 1)判断服务器的索引表中是否存在任意一条记录的主索引与待备份数据块的弱指纹相同且次索引为空,若存在,使用第二个哈希函数计算该条记录所对应的数据块,并将计算结果标记为该条记录的次索引,进入步骤(4. ;若不存在,直接进入步骤(4.2);(4. 2)判断服务器的索引表中是否存在任意一条记录的主索引与该待备份数据块的弱指纹相同且次索引与该待备份数据块的强指纹相同,若存在,则在索引表中添加该待备份数据块的记录,标记该待备份数据块为重复数据,主索引为弱指纹,次索引为强指纹, 进入步骤(5);若不存在,则将该待备份数据块备份到服务器,在索引表中添加该待备份数据块的记录,并标记该待备份数据块的主索引为弱指纹,次索引为强指纹,进入步骤(5)。本专利技术采用运算量相差较大的两个哈希函数,首先采用计算量低的第一个哈希函数对每个数据块进行校验,很快的判断出哪些数据块是重复数据,哪些数据块不是重复数据;其次对于上述步骤判断出的重复数据,再采用计算量大的第二个哈希函数来判断其是否真正为重复数据,从而避免全部数据都采用计算量大的第二个哈希函数来校验,大大降低了校验过程中的指纹计算量。本专利技术所述的方法特别适用于重复数据比例不高的场合, 能更好的达到节省计算开销的目的。附图说明图1为本专利技术涉及的备份系统的架构图;图2为本专利技术涉及的备份系统数据备份过程图;图3为本专利技术所述的重复数据删除方法流程图。具体实施例方式本专利技术基于双指纹校验的备份机制,在数据定长分块的基础上,利用重复数据局部存在的特性,加入双指纹哈希校验,对重复数据进行删除,从而减少数据指纹的计算量。 双指纹哈希校验旨在对指纹计算做出优化,即采用弱校验(计算量低)和强校验(计算量高),先利用前者进行筛选,发生碰撞以后再利用后者进行计算。所谓弱校验是可能不同的数据块会得到相同的校验值,强校验就是保证不同的数据块一定得不到相同的校验值,通过弱校验计算出的校验值称为弱指纹,通过强校验计

  1.一种采用双指纹哈希校验的重复数据删除方法,包括以下步骤:(1)将待备份对象划分成等长的待备份数据块;(2)选取一个待备份数据块;(3)判断该待备份数据块的弱指纹与服务器中任意一个数据块的弱指纹是否相同,若相同,则进入步骤(4);若不同,则对该数据块进行备份,转入步骤(5);(4)判断该待备份数据块的强指纹与服务器中任意一个数据块的强指纹是否相同,若相同,则进入步骤(5);若不同,则对该数据块进行备份,进入步骤(5);(5)重复步骤(2)到(4),遍历步骤(1)中划分的所有待备份数据块。

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: