正在阅读:直面重复数据删除技术的死穴直面重复数据删除技术的死穴

2008-08-20 10:51 出处:PConline原创 作者:佚名 责任编辑:nixiaoqiang

  重复数据删除是目前存储行业最热门的技术之一,不过“一俊遮百丑”,重复数据删除虽然好处很多,弱点也存在不少,只是被大家暂时忽略罢了。虽然话有点重,但就像奥运会夺取金牌的运动员,人们只关注了他成功的一面,而没有看到此前运动员在技术细节上作出的一次次改进。重复数据删除技术也一样,不指出问题,反而不利于进步,甚至会成为昙花一现。

  重复数据删除技术的弱点,最近被一位国外专业存储网站的资深撰稿人Henry Newman指了出来。这位在高性能计算和存储行业从事了27年的顾问毫不客气的说道:“跟以前一样,我不打算对比不同厂商的产品或者技术,我只想谈谈企业在考虑购买重复数据删除软件或硬件时,必须向厂商咨询一个重要问题,就是‘数据损坏’的问题。有人可能会想,重复数据删除与数据损坏有什么关系呢?为了对这一译文做出解答,我将从通用硬件和软件的角度来分析。”Henry Newman这里提到的“数据损坏”,正是在重复数据删除技术热潮过后,最近被很对业内人士关注的焦点。

  如果对备份的数据进行一下对比就会发现,正确的数据和损坏后的数据的ASCII码可能会发生很大变化,大部分字节都损坏了。这就是为什么现在要讨论“数据损坏”,辛苦保存的数据,有可能再不能被读取,即便备份技术再先进,但是在“数据损坏”面前将一无是处。

  所以对于重复数据删除技术,我们有两个担心,一是如果这是通过软件方式来保持数据,如果软件破损,你的数据就会随它一起丢失。另一个是在数据拷贝数量的精简使剩余的单独数据更加重要,这样会使它更加易受攻击。也就是说如果重复数据删除产品损坏,你丢失的将不仅仅是一个备份,而是所有。

  Henry Newman在博文里谈道,“数据不定期损坏并非一定会发生,即使是发生数据损坏事故的概率远低于廉价SATA的高端企业光纤信道驱动器也不能例外。 另外,发生问题的部件不一定是驱动器或者控制器,也可能是内存、CPU或者别的什么部件。归结为一点就是,数字世界中的数字资料肯定有可能会损坏。 虽然发生数据损坏事故的情况跟使用的操作系统、硬件和软件都有关系,即使是运行在基于MVS多重虚拟存储系统的IBM大型机上也可能发生数据损坏事故,只是概率要比系统低很多。”

  数据损坏到底跟重复数据删除有什么关系?其实很好理解,如果你打算删除重复的数据,你就必须保证你拥有的那些数据是完好的。比如,如果数据从一开始就出错,在磁盘上就已经受损了怎么办?重复数据是在内存中创建的,是好的,但是磁盘上的数据却是坏的。 也就是说,用一个好的重复数据建立了数据,但是一旦从磁盘读取数据,数据就变成坏的了。那么在进行数据对比时会怎么样? 如果再次读取,可能就能够得到正确的数据。但是如果数据被写入磁盘时的日期出错,你是否还能读取那些文件呢?这个问题其实非常可怕。

  此外,目前重复数据删除技术在实现上可分为两类,即内处理(Inline processing)和后处理(Post processing)。虽然各存储厂商都会对其采用的方式进行“辨证”的正向推广。但事实上,这两种方式也都各有利弊。

  Inline processing发生在数据从备份服务器接收并存储到磁盘的时间,因为与备份过程同步,其面临最大的考验就是速度,而Post processing则发生在备份处理之后,虽然不会减缓数据备份的处理过程,却有数据失真和完整性隐患。但因为其避免了备份和重复数据删除之间的冲突,相对来说更适合大型的企业。由此看来,用户更需要的是能够将两者相互整合的解决方案。

  在某些环境中,重复数据删除是一种很重要的工具,但是凡事都有两面性,我们应该认真规划和执行它。

 
受不了多愁善感的天气?那就选部好片宅在家 追求极致的体验 神画智能影院F1 Pro新品评测 斐讯与他的0元购:一个猜到开头却猜错结尾的故事 不好意思 你在电脑上干了什么我们都知道! 国外随时掐断咱的网络?危言耸听还是确有其事

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多

服务器论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品