在 Win10 上安装重复数据删除

2017-01 from–https://blog.csdn.net/hadstj/article/details/53998950

一、Win10 的版本
到目前为止,Win10 有三个大的版本,即原始版、1511 版和1607 版本,分别对应的版本号:10.0.10240、10.0.10586 和 10.0.14393。
windows server 2016 正式版本是今年发布的,对应前面 Win10 的 1607版。
因此,要想使用正式版本的重复数据删除功能,就先要把 Win10 升级到 1607 版。
如果不升级到 1607 版的话,会要求先安装基础包,有可能造成系统损坏,再也不能启动了。

二、准备文件
安装文件可以从微软的网站下载 180 天测试版本,就行了。
用解压缩工具把 Sources 目录下的 install.wim 中文件释放到一个临时目录中。
用创建软、硬链接的办法把需要的文件集中到一个目录中。
目录用 junction 创建软链接;文件用 fsutil 创建硬链接。
用自制的工具把释放出来的文件再解压缩,具体可参考增量压缩的相关文章,仅此一份。具体原理可以在微软网站上搜 Binary Delta Compression。

三、相关的包
重复删除组件用到了大概有四组包:
Microsoft-Windows-FileServer-Core-Package
Microsoft-Windows-Dedup-Package
Microsoft-Windows-Dedup-ChunkLibrary-Package
Microsoft-Windows-Foundation-Package
前面两组只存在于服务器版本,后面两组在 Win10 中就有。
每组有两个包,一个程序包,一个语言包。

四、安装包
dism /online /add-package /packagepath: Microsoft-Windows-FileServer-Core-Package~31bf3856ad364e35~amd64~~10.0.14393.0.mum
dism /online /add-package /packagepath: Microsoft-Windows-FileServer-Core-Package~31bf3856ad364e35~amd64~zh-CN~10.0.14393.0.mum
dism /online /add-package /packagepath: Microsoft-Windows-Dedup-Package~31bf3856ad364e35~amd64~~10.0.14393.0.mum
dism /online /add-package /packagepath: Microsoft-Windows-Dedup-Package~31bf3856ad364e35~amd64~zh-CN~10.0.14393.0.mum

五、启用功能
安装好包以后,功能默认是不启用的。需要启用的功能有三个:
Enable-WindowsOptionalFeature -Online -FeatureName File-Services
Enable-WindowsOptionalFeature -Online -FeatureName CoreFileServer
Enable-WindowsOptionalFeature -Online -FeatureName Dedup-Core

六、使用重复数据删除
Enable-DedupVolume D:
Set-DedupVolume D: -MinimumFileAgeDays 0
Get-DedupStatus

 

针对某个卷配置重复数据删除
Enable-DedupVolume D:

设置早于以下时间的删除重复文件(天)
Set-Dedupvolume D: -MinimumFileAgeDays 10

启用重复数据删除
Start-DedupJob -Volume D: -Type Optimization

任务执行情况查询(任务结束后返回空)
Get-DedupJob

优化效果查询
Get-DedupStatus


2015-05 from–http://blog.sina.com.cn/s/blog_a0c06a350102w8s6.html

Windows Server 2012 R2 存储功能简述

二. Windows Server 2012 R2 Deduplication

Data Deduplication早在Windows Server 2012 系统上就已经出现,偶个人的偏见一直是隔代使用Windows系统。发展到WS2012R2偶来简单介绍一下Deduplication重复数据删除。

单论Data Deduplication不是什么新鲜事物,企业应用已经发展多年,但一直在昂贵的存储设备上运行。这次微软将Data Deduplication技术整合到操作系统中,终于能让中小企业和普通用户一用(Linux上普通用户这块其实早就有了,只是Linux的占有率……造成微软Deduplication好像走到前面┗( T﹏T )┛)。

Data Deduplication重复数据删除,早期是寻找相同数据(文件),然后删除重复。现在流行的重复数据删除采用三种级别:一是,File-level,以特定文件为基础,整合数据删除重复,好处是速度快,坏处是基于文件重复数据删除整体「去重」效能一般。比较适合影音或图片;二是,Block-level,是以磁盘Block为单位的数据删除整合,也有以特定大小数据块为单位,微软Deduplication和ZFS内部重复数据删除皆是基于此。好处是企业应用的数据或虚拟机数据大多内部是相同的,基于Block能去掉更多的重复,坏处是对CPU、IO要求高,「去重」程序算法「拆」-「组」等影响时时效能;第三种是,Byte-level,字节级重复数据删除,和Block-level一样,只是「去重」基于字节,CPU、IO负担更大了。

好了,以微软 WS2012R2 Deduplication开始说明:
Deduplication整合了File-level和Block-level「去重」。在企业应用上虚拟多台主机已经是一种发展潮流了,多主机意味着多重复系统文件,Deduplication在虚拟机(VHD、VHDX)去重率上能达到80%。将数据「拆」为特定Block,Deduplication设置Block以32KB~128KB为单位,按介绍其他数据也能达到不错的「去重」,具体如何下面会测试。

在使用Deduplication前要知道的事情:

  • 1.Windows Server 2012以上服务器操作系统才能使用Deduplication,Windows 8、Windows 8.1没有这个功能。
  • 2.开机系统分区不支持。
  • 3.非NTFS文件系统无法使用,REFS也不支持。
  • 4.加密分区及数据无法使用。
  • 5.不支持集群部署使用。
  • 6.实际测试不能用于Windows Server Backup储存盘,WSB会停止报错。
  • 7.Deduplication基于硬盘分区(槽)部署,没有全局功能。
  • 8.Deduplication硬盘在不支持的操作系统上能看到数据,但读写文件不能。
  • 9.开启Deduplication的分区数据,停用Deduplication后分区数据保持原样不会被还原。

Deduplication评估方法:
我们在部署前可以在要开启Deduplication的分区上使用DDPEVAL.exe工具来评估Deduplication的「去重」效果,方便我们选择是否应该开启Deduplication,和开启后能节省多少空间等。


DDPEVAL I:』DDPEVAL 要评估的分区盘符

红框是启用的「去重」结果。

WS2012R2自带DDPEVAL工具,Windows 8.1可以下载使用,下载地址见最后。PC\Deduplication\DDPEVAL.rar

有兴趣的同学可以先使用DDPEVAL工具评估,如果达到要求继续下看,没达到要求可以关闭本文了。

6.Windows Server 2012 R2 部署Deduplication


按图一步一步即可完成,单独安装Deduplication不需重启。

7.启用Deduplication


Deduplication,基于硬盘分区(槽)部署。如图,卷,想要启用Deduplication的分区,右键,配置重复数据删除。


如图(偶这是WS2012R2,已经和WS2012不同了),重复数据删除,有两种选择:一般用途文件服务器。这个是大多数用户的选项;虚拟桌面基础结构(VDI)服务器。这个是基于企业的虚拟主机或虚拟机的应用,一般用户请无视。


a.见上

b.运行Deduplication的时间,分区存储的文件不是马上运行「去重」,可以在此设置分区上的文件存储多少天后运行Deduplication。如果没有什么特殊要求0马上启用即可,默认文件存储3天才会Deduplication。

c.要排除的文件扩展名,偶这里栗子TXT。

d.还可排除特定文件夹,偶这里栗子排除文件夹123。

e.见下。


如果你的系统够强可以取消 – 启用后台优化。

Deduplication的「去重」不是时时运行,可以手动设置运行时间和运行时长(排程)。


最后在运行Deduplication的分区\System Volume Information下产生索引和记录文件。(图07.是偶真实运行Deduplication的硬盘截图)

8.Windows PowerShell——Deduplication简述:

和Storage Spaces一样,Deduplication完整操作包括在Windows PowerShell中。


A.『Enable-DedupVolume E:』开启E分区(槽)Deduplication。

B.『Get-DedupStatus』查看系统中Deduplication分区状态。验证是否开启成功。

C.『Set-Dedupvolume E: -MinimumFileAgeDays 3』见上 图05.b.

D.『Set-DedupVolume –Volume E: -ExcludeFolder “E:\abc”,”E:\313131”』排除文件夹,同图05.d.

E.『Set-DedupVolume –Volume E: -ExcludeFileType “TXT”,”jpg”』排除的文件扩展名,同图05.c.

F.『Start-DedupJob –Volume E: -Type Optimization』马上运行Deduplication优化作业。在此Deduplication可运行的作业模式有四种:Optimization优化作业;GarbageCollection垃圾回收作业,将没用的块删除;Scrubbing取消非关联(洗涤)作业,将Deduplication中原有现失效的剔除;Unoptimization非优化作业,请不要使用此作业,下详。以上四种作业模式Optimization、Unoptimization是开关Deduplication;GarbageCollection、Scrubbing是Deduplication的真正优化压缩命令。

G.『Get-DedupVolume | fl -Property * 』显示所有Deduplication分区详细信息。可对上面设置成功与否进行验证。同功能还有『Get-DedupStatus | fl』区别大家自己比较吧。

这是偶认为几个比较有用的命令介绍,更多请参考这里:https://technet.microsoft.com/zh-cn/library/hh848438.aspx

9.如何关闭Deduplication:

前面说过了,开启Deduplication的分区数据,停用Deduplication后分区数据保持原样不会被还原。

9.1 Disable-DedupVolume

偶就不上图了,继续使用上面栗子E分区。『Disable-DedupVolume -Volume E:』,关闭E分区上的Deduplication,Disable-DedupVolume后「Get-DedupVolume | fl -Property *」可以继续查看到状态,并且已有的Deduplication数据和状态都被保留,只是状态变成了false禁用。

9.2 Start-DedupJob Unoptimization:

『Start-DedupJob -Volume E: -Type Unoptimization』将E分区标记为非优化作业。不要被这个字面意思迷惑,与Disable-DedupVolume比「Start-DedupJob -Volume E: -Type Unoptimization」命令才是真关闭Deduplication,「Get-DedupVolume | fl -Property *」将无法再参看到状态信息,卷(分区,槽)彻底从Deduplication中退出,并且见图07. System Volume Information下的所有Deduplication相关文件都被删除!『The Disable-DedupVolume cmdlet disables further data deduplication activity on one or more volumes. After you disable data deduplication, the volume remains in a deduplicated state and the existing deduplicated data is accessible. The server stops running data deduplication jobs for the volume and new data is not deduplicated. To undo data deduplication on a volume, use the Start-DedupJob cmdlet and specify Unoptimization for the Type parameter』*1。至于原有数据虽不会一并被删除但经过「去重」,Unoptimization后「去重」索引等被删除,原始数据不知是否会不完整(?!)


对上补充:经过测试,使用Unoptimization命令后会还原已「去重」的文件(视Deduplication分区大小,还原非常耗时)。偶测试还原没有完成前如果重启系统,还原会终止,所以——
如果需要彻底取消Deduplication,现在最简单、有效的方法:保持Deduplication正常运行,将Deduplication分区中文件拷贝到其他未使用Deduplication的分区,拷贝完成后关闭Deduplication即「Disable-DedupVolume -Volume」,然后格式化Deduplication分区就恢复正常了(如果不放心还可以格式化后Unoptimization或直接删除Deduplication功能)

10.测试:

平台同上章。




四个虚拟硬盘,开启Deduplication的前后比较。偶不废话了,大家看图,四个虚拟硬盘有什么数据,多大等请下载文件列表。下载地址见最后PC\Deduplication\Deduplication文件列表.rar

通过测试,视频、音乐文件基本不会「去重」,符合微软说明文档说明:『aac | aif | aiff | asf | asx | au | avi | flac | jpeg | m3u | mid | midi | mov | mp1 | mp2 | mp3 | mp4 | mpa |mpe | mpeg | mpeg2 |mpeg3 | mpg | ogg | qt | qtw | ram | rm | rmi | rmvb | snd | swf | vob | wav | wax | wma | wmv | wvx | accdb | accde | accdr | accdt | docm | docx | dotm | dotx | pptm | potm | potx | ppam | ppsx | pptx | sldx | sldm | thmx | xlsx | xlsm | xltx | xltm | xlsb | xlam | xll | ace | arc | arj | bhx | b2 | cab | gz | gzip | hpk | hqx | jar | lha | lzh | lzx | pak | pit | rar | sea | sit | sqz | tgz | uu | uue | z | zip | zoo』以上扩展名的文件实际不会「去重」压缩。


基本到此,看了上面的介绍和测试。如果经常使用Vmware、Hyper-V开启Deduplication将节省不少硬盘空间,如果是一般用户或音视频文件比较多,Deduplication其实没有什么开启意义。最后要说明一点,开启Deduplication的分区备份文件,如是块备份,备份的文件是不完整的,即「去重」的。如是文件备份,备份文件是完整备份。

Deduplication不支持加密数据,启用Deduplication的分区,其实已经丧失了「保密」特性。Deduplication需要将所有支持的数据分析——选取块、索引——分解——组合。

其他操作系统可以通过Deduplication分区映射、iSCSI等来访问使用。

SP1.网路上有关于Windows 8.1 启用Deduplication的文章,偶试了没有成功,有兴趣的同学请自己测试。
SP2. Deduplication后分区,WinPE等访问得到的是不完整数据。
SP3.偶没有解释一些特定概念,如Deduplication为保证数据完整而使用的Check-Sum技术。原因是大家好像不太关心这些,甚至有同学说偶解释「黑科技」显B格(σ`д′)σ,有兴趣的同学自己搜索吧(☄⊙ω⊙)☄

下载地址:
http://1drv.ms/1uYrzWc
http://pan.baidu.com/s/1i328uih #最全,请优先选择
http://yunpan.cn/cAnMySXnTgZUd (提取码:0426)
http://vdisk.weibo.com/s/CdAFYpzihQ9WH

*1. https://technet.microsoft.com/zh-cn/library/hh848440.aspx

Windows Server 2012 R2 存储功能简述 上 一. Windows Storage Spaces简述
Windows Server 2012 R2 存储功能简述 下 二. Windows Server 2012 R2 Deduplication简介

20150522
20150527
20150529

上一篇
下一篇