作者dream_653·2020-03-27 13:24

系统应用运维·*****

利用Linux查找重复文件

字数 11502阅读 1613评论 0赞 0

利用Linux查找重复文件
转载

方法一：使用Find命令

本部分算是对find强大功能的扩展使用方法说明，如果你不熟悉find命令的常规使用方法可以移步如何在Linux中使用Find命令查找文件先了解一下。在find的基础上，我们可与（如xargs命令）等其它基本Linux命令相结合，即能创造出无限的命令行功能，比如：可以快速查找出Linux某个文件夹及其子文件夹中的重复文件列表。要实现这个功能在流程上是比较简单的，只要查找遍历出所有文件，再通过命令去比较每个文件的MD5就OK啦。

听起来好像比较抽象，其实命令就一条：

find -not -empty -type f -printf "%s\\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate

find -not -empty -type f -printf “%s\n” 表示使用find命令搜索出所有非空文件，再打印出他们的大小
sort -rn 命令不用多说了把，这条命令就是按文件大小进行反向排序
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 表示只打印了重复的行，这里使用代表打印出文件名相同的文件
uniq -w32 –all-repeated=separate 最后这里表示对MD5的前32个字节进行对比，以筛选出重复文件
使用命令行的整个过程就是这么简单和容易。

方法二：使用dupeGuru工具

DupeGuru是一个跨平台应用，有Linux、Windows和Mac OS X版本，它可以通过文件大小、MD5和文件名等多种标准来帮助用户找出Linux中的重复文件。Ubuntu用户可以直接通过添加如下PPA源来方式来进行安装：

sudo add-apt-repository ppa:hsoft/ppa
sudo apt-get update
sudo apt-get install dupeguru*

方法三：使用Find命令解析

在工作生活当中，我们很可能会遇到查找重复文件的问题。比如博主我所在的汉化组就遇到过这样一个情况：从某游戏提取的游戏文本有重复的，我们希望找出所有重复的文本，让翻译只翻译其中一份，而其他的直接替换。那么这个问题该怎么做呢？当然方法多种多样，而且无论那种方法应该都不会太难，但博主我第一次遇到这个问题的时候第一反应是是用Linux的Shell脚本，所以文本介绍这种方式。

先上代码：

find -not -empty -type f -printf "%s\n" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36-

大家先cd到自己想要查找重复文件的文件夹，然后copy上面代码就可以了，系统会对当前文件夹及子文件夹内的所有文件进行查重。

下面分析一下上面的命令。

首先看第一句：

find -not -empty -type f -printf "%s\n"

find是查找命令；-not -empty是要寻找非空文件；-type f是指寻找常规文件；-printf “%s\n”比较具有迷惑性，这里的%s并非C语言中的输出字符串，它实际表示的是文件的大小，单位为bytes（不懂就man，man一下find，就可以看到了），\n是换行符。所以这句话的意思是输出所有非空文件的大小。

通过管道，上面的结果被传到第二句：

sort -rn

sort是排序，-n是指按大小排序，-r是指从大到小排序（逆序reverse）。

第三句：

uniq -d

uniq是把重复的只输出一次，而-d指只输出重复的部分（如9出现了5次，那么就输出1个9，而2只出现了1次，并非重复出现的数字，故不输出）。

第四句：

xargs -I{} -n1 find -type f -size {}c -print0

这一部分分两部分看，第一部分是xargs -I{} -n1，xargs命令将之前的结果转化为参数，供后面的find调用，其中-I{}是指把参数写成{}，而-n1是指将之前的结果一个一个输入给下一个命令（-n8就是8个8个输入给下一句，不写-n就是把之前的结果一股脑的给下一句）。后半部分是find -type f -size {}c -print0，find指令我们前面见过，-size{}是指找出大小为{}bytes的文件，而-print0则是为了防止文件名里带空格而写的参数。

第五句：

xargs -0 md5sum

xargs我们之前说过，是将前面的结果转化为输入，那么这个-0又是什么意思？man一下xargs，我们看到-0表示读取参数的时候以null为分隔符读取，这也不难理解，毕竟null的二进制表示就是00。后面的md5sum是指计算输入的md5值。

第六句：sort是排序，这个我们前面也见过。

第七句：

uniq -w32 --all-repeated=separate

uniq -w32是指寻找前32个字符相同的行，原因在于md5值一定是32位的，而后面的--all-repeated=separate是指将重复的部分放在一类，分类输出。

第八句：

cut -b 36-

由于我们的结果带着md5值，不是很好看，所以我们截取md5值后面的部分，cut是文本处理函数，这里-b 36-是指只要每行36个字符之后的部分。

我们将上述每个命令用管道链接起来，存入result.txt：

find -not -empty -type f -printf "%s\n" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36- >result.txt

虽然结果很好看，但是有一个问题，这是在Linux下很好看，实际上如果有朋友把输出文件放到Windows上，就会发现换行全没了，这是由于Linux下的换行是\n，而windows要求\n\r，为了解决这个问题，我们最后执行一条指令，将\n转换为\n\r：

cat result.txt | cut -c 36- | tr -s '\n'

fdupes：Linux 中查找并删除重复文件的命令行工具

译者： LCTT joeren | 2015-09-01 14:13 收藏: 9

对于大多数计算机用户而言，查找并替换重复的文件是一个常见的需求。查找并移除重复文件真是一项令人不胜其烦的工作，它耗时又耗力。但如果你的机器上跑着GNU/Linux，那么查找重复文件会变得十分简单，这多亏了fdupes工具。

fdupes——在Linux中查找并删除重复文件

fdupes——在Linux中查找并删除重复文件

fdupes是啥东东？

fdupes是Linux下的一个工具，它由Adrian Lopez用C编程语言编写并基于MIT许可证发行，该应用程序可以在指定的目录及子目录中查找重复的文件。fdupes通过对比文件的MD5签名，以及逐字节比较文件来识别重复内容，fdupes有各种选项，可以实现对文件的列出、删除、替换为文件副本的硬链接等操作。

文件对比以下列顺序开始：

大小对比 > 部分 MD5 签名对比 > 完整 MD5 签名对比 > 逐字节对比

安装 fdupes 到 Linux

在基于Debian的系统上，如Ubuntu和Linux Mint，安装最新版fdupes，用下面的命令手到擒来。

$ sudo apt-get install fdupes
在基于CentOS/RHEL和Fedora的系统上，你需要开启epel仓库来安装fdupes包。

yum install fdupes
dnf install fdupes [在 Fedora 22 及其以后]
注意：自Fedora 22之后，默认的包管理器yum被dnf取代了。

fdupes命令如何使用

1、作为演示的目的，让我们来在某个目录（比如 tecmint）下创建一些重复文件，命令如下：

$ mkdir /home/"$USER"/Desktop/tecmint && cd /home/"$USER"/Desktop/tecmint && for i in {1..15}; do echo "I Love Tecmint. Tecmint is a very nice community of Linux Users." > tecmint${i}.txt ; done
在执行以上命令后，让我们使用ls命令验证重复文件是否创建。

$ ls -l
total 60
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint10.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint11.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint12.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint13.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint14.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint15.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint1.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint2.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint3.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint4.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint5.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint6.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint7.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint8.txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint9.txt
上面的脚本创建了15个文件，名称分别为tecmint1.txt，tecmint2.txt……tecmint15.txt，并且每个文件的数据相同，如

"I Love Tecmint. Tecmint is a very nice community of Linux Users."
2、现在在tecmint文件夹内搜索重复的文件。

$ fdupes /home/$USER/Desktop/tecmint
/home/tecmint/Desktop/tecmint/tecmint13.txt
/home/tecmint/Desktop/tecmint/tecmint8.txt
/home/tecmint/Desktop/tecmint/tecmint11.txt
/home/tecmint/Desktop/tecmint/tecmint3.txt
/home/tecmint/Desktop/tecmint/tecmint4.txt
/home/tecmint/Desktop/tecmint/tecmint6.txt
/home/tecmint/Desktop/tecmint/tecmint7.txt
/home/tecmint/Desktop/tecmint/tecmint9.txt
/home/tecmint/Desktop/tecmint/tecmint10.txt
/home/tecmint/Desktop/tecmint/tecmint2.txt
/home/tecmint/Desktop/tecmint/tecmint5.txt
/home/tecmint/Desktop/tecmint/tecmint14.txt
/home/tecmint/Desktop/tecmint/tecmint1.txt
/home/tecmint/Desktop/tecmint/tecmint15.txt
/home/tecmint/Desktop/tecmint/tecmint12.txt
3、使用-r选项在每个目录包括其子目录中递归搜索重复文件。

它会递归搜索所有文件和文件夹，花一点时间来扫描重复文件，时间的长短取决于文件和文件夹的数量。在此其间，终端中会显示全部过程，像下面这样。

$ fdupes -r /home
Progress [37780/54747] 69%
4、使用-S选项来查看某个文件夹内找到的重复文件的大小。

$ fdupes -S /home/$USER/Desktop/tecmint
65 bytes each:
/home/tecmint/Desktop/tecmint/tecmint13.txt
/home/tecmint/Desktop/tecmint/tecmint8.txt
/home/tecmint/Desktop/tecmint/tecmint11.txt
/home/tecmint/Desktop/tecmint/tecmint3.txt
/home/tecmint/Desktop/tecmint/tecmint4.txt
/home/tecmint/Desktop/tecmint/tecmint6.txt
/home/tecmint/Desktop/tecmint/tecmint7.txt
/home/tecmint/Desktop/tecmint/tecmint9.txt
/home/tecmint/Desktop/tecmint/tecmint10.txt
/home/tecmint/Desktop/tecmint/tecmint2.txt
/home/tecmint/Desktop/tecmint/tecmint5.txt
/home/tecmint/Desktop/tecmint/tecmint14.txt
/home/tecmint/Desktop/tecmint/tecmint1.txt
/home/tecmint/Desktop/tecmint/tecmint15.txt
/home/tecmint/Desktop/tecmint/tecmint12.txt
5、你可以同时使用-S和-r选项来查看所有涉及到的目录和子目录中的重复文件的大小，如下：

$ fdupes -Sr /home/avi/Desktop/
65 bytes each:
/home/tecmint/Desktop/tecmint/tecmint13.txt
/home/tecmint/Desktop/tecmint/tecmint8.txt
/home/tecmint/Desktop/tecmint/tecmint11.txt
/home/tecmint/Desktop/tecmint/tecmint3.txt
/home/tecmint/Desktop/tecmint/tecmint4.txt
/home/tecmint/Desktop/tecmint/tecmint6.txt
/home/tecmint/Desktop/tecmint/tecmint7.txt
/home/tecmint/Desktop/tecmint/tecmint9.txt
/home/tecmint/Desktop/tecmint/tecmint10.txt
/home/tecmint/Desktop/tecmint/tecmint2.txt
/home/tecmint/Desktop/tecmint/tecmint5.txt
/home/tecmint/Desktop/tecmint/tecmint14.txt
/home/tecmint/Desktop/tecmint/tecmint1.txt
/home/tecmint/Desktop/tecmint/tecmint15.txt
/home/tecmint/Desktop/tecmint/tecmint12.txt
107 bytes each:
/home/tecmint/Desktop/resume_files/r-csc.html
/home/tecmint/Desktop/resume_files/fc.html
6、不同于在一个或所有文件夹内递归搜索，你可以选择按要求有选择性地在两个或三个文件夹内进行搜索。不必再提醒你了吧，如有需要，你可以使用-S和/或-r选项。

$ fdupes /home/avi/Desktop/ /home/avi/Templates/
7、要删除重复文件，同时保留一个副本，你可以使用-d选项。使用该选项，你必须额外小心，否则最终结果可能会是文件/数据的丢失。郑重提醒，此操作不可恢复。

$ fdupes -d /home/$USER/Desktop/tecmint
[1] /home/tecmint/Desktop/tecmint/tecmint13.txt
[2] /home/tecmint/Desktop/tecmint/tecmint8.txt
[3] /home/tecmint/Desktop/tecmint/tecmint11.txt
[4] /home/tecmint/Desktop/tecmint/tecmint3.txt
[5] /home/tecmint/Desktop/tecmint/tecmint4.txt
[6] /home/tecmint/Desktop/tecmint/tecmint6.txt
[7] /home/tecmint/Desktop/tecmint/tecmint7.txt
[8] /home/tecmint/Desktop/tecmint/tecmint9.txt
[9] /home/tecmint/Desktop/tecmint/tecmint10.txt
[10] /home/tecmint/Desktop/tecmint/tecmint2.txt
[11] /home/tecmint/Desktop/tecmint/tecmint5.txt
[12] /home/tecmint/Desktop/tecmint/tecmint14.txt
[13] /home/tecmint/Desktop/tecmint/tecmint1.txt
[14] /home/tecmint/Desktop/tecmint/tecmint15.txt
[15] /home/tecmint/Desktop/tecmint/tecmint12.txt
Set 1 of 1, preserve files [1 - 15, all]:
你可能注意到了，所有重复的文件被列了出来，并给出删除提示，一个一个来，或者指定范围，或者一次性全部删除。你可以选择一个范围，就像下面这样，来删除指定范围内的文件。

Set 1 of 1, preserve files [1 - 15, all]: 2-15
[-] /home/tecmint/Desktop/tecmint/tecmint13.txt
[+] /home/tecmint/Desktop/tecmint/tecmint8.txt
[-] /home/tecmint/Desktop/tecmint/tecmint11.txt
[-] /home/tecmint/Desktop/tecmint/tecmint3.txt
[-] /home/tecmint/Desktop/tecmint/tecmint4.txt
[-] /home/tecmint/Desktop/tecmint/tecmint6.txt
[-] /home/tecmint/Desktop/tecmint/tecmint7.txt
[-] /home/tecmint/Desktop/tecmint/tecmint9.txt
[-] /home/tecmint/Desktop/tecmint/tecmint10.txt
[-] /home/tecmint/Desktop/tecmint/tecmint2.txt
[-] /home/tecmint/Desktop/tecmint/tecmint5.txt
[-] /home/tecmint/Desktop/tecmint/tecmint14.txt
[-] /home/tecmint/Desktop/tecmint/tecmint1.txt
[-] /home/tecmint/Desktop/tecmint/tecmint15.txt
[-] /home/tecmint/Desktop/tecmint/tecmint12.txt
8、从安全角度出发，你可能想要打印fdupes的输出结果到文件中，然后检查文本文件来决定要删除什么文件。这可以降低意外删除文件的风险。你可以这么做：

$ fdupes -Sr /home > /home/fdupes.txt
注意：你应该替换/home为你想要的文件夹。同时，如果你想要递归搜索并打印大小，可以使用-r和-S选项。

9、你可以使用-f选项来忽略每个匹配集中的首个文件。

首先列出该目录中的文件。

$ ls -l /home/$USER/Desktop/tecmint
total 20
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint9 (3rd copy).txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint9 (4th copy).txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint9 (another copy).txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint9 (copy).txt
-rw-r--r-- 1 tecmint tecmint 65 Aug 8 11:22 tecmint9.txt
然后，忽略掉每个匹配集中的首个文件。

$ fdupes -f /home/$USER/Desktop/tecmint
/home/tecmint/Desktop/tecmint9 (copy).txt
/home/tecmint/Desktop/tecmint9 (3rd copy).txt
/home/tecmint/Desktop/tecmint9 (another copy).txt
/home/tecmint/Desktop/tecmint9 (4th copy).txt
10、检查已安装的fdupes版本。

$ fdupes --version
fdupes 1.51
11、如果你需要关于fdupes的帮助，可以使用-h开关。

$ fdupes -h
Usage: fdupes [options] DIRECTORY...
-r --recurse for every directory given follow subdirectories
encountered within
-R --recurse: for each directory given after this option follow
subdirectories encountered within (note the ':' at
the end of the option, manpage for more details)
-s --symlinks follow symlinks
-H --hardlinks normally, when two or more files point to the same
disk area they are treated as non-duplicates; this
option will change this behavior
-n --noempty exclude zero-length files from consideration
-A --nohidden exclude hidden files from consideration
-f --omitfirst omit the first file in each set of matches
-1 --sameline list each set of matches on a single line
-S --size show size of duplicate files
-m --summarize summarize dupe information
-q --quiet hide progress indicator
-d --delete prompt user for files to preserve and delete all
others; important: under particular circumstances,
data may be lost when using this option together
with -s or --symlinks, or when specifying a
particular directory more than once; refer to the
fdupes documentation for additional information
-N --noprompt together with --delete, preserve the first file in
each set of duplicates and delete the rest without
prompting the user
-v --version display fdupes version
-h --help display this help message
到此为止了。让我知道你以前怎么在Linux中查找并删除重复文件的吧？同时，也让我知道你关于这个工具的看法。在下面的评论部分中提供你有价值的反馈吧，别忘了为我们点赞并分享，帮助我们扩散哦。

我正在使用另外一个移除重复文件的工具，它叫fslint。很快就会把使用心得分享给大家哦，你们一定会喜欢看的。

重复文件查找 Linux

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

利用Linux查找重复文件

方法一：使用Find命令

方法二：使用dupeGuru工具

方法三：使用Find命令解析

fdupes：Linux 中查找并删除重复文件的命令行工具

fdupes是啥东东？

安装 fdupes 到 Linux

yum install fdupes

dnf install fdupes [在 Fedora 22 及其以后]

fdupes命令如何使用

添加新评论0 条评论

作者其他文章

相关文章

相关问题

相关资料