awk 不排序删除重复行

处理的文件

结果文件

1
2
3

1 2 3
1 2 4
1 2 5

处理流程

而如果使用sort加uniq进行排序的话，这个文档是看不出有什么不妥，不过我要处理的是用户名与密码一行行对应好的，如果使用sort + uniq处理的话，用户名都排到一块了，密码也又都跑到一块了。这样就分不出来那个是那个了。而使用的脚本很简单：

1	awk '!x[$0]++' filename

注：此处的x只是一个数据参数的名字而已，随你用a、b、c、d都行。

简要解释一下，awk 的基本执行流程是，对文件的每一行，做一个指定的逻辑判断，如果逻辑判断成立，则执行指定的命令；如果逻辑判断不成立，则直接跳过这一行。

这里写的 awk 命令是!x[$0]++，意思是，首先创建一个 map 叫x，然后用当前行的全文$0作为 map 的 key，到 map 中查找相应的 value，如果没找到，则整个表达式的值为真，可以执行之后的语句；如果找到了，则表达式的值为假，跳过这一行。由于表达式之后有++，因此如果某个 key 找不到对应的 value，该++操作会先把对应的 value 设成 0，然后再自增成 1，这样下次再遇到重复的行的时候，对应的 key 就能找到一个非 0 的 value 了。

注：该处的map类似于array数组，只不过在awk中叫array不恰当。

awk Oneline中我们也学到过，awk 的流程是先判断表达式，表达式为真的时候就执行语句，可是我们前面写的这个 awk 命令里只有表达式，没有语句，那我们执行什么呢？原来，当语句被省略的时候，awk 就执行默认的语句，即打印整个完整的当前行。就这样，我们通过这个非常简短的 awk 命令实现了去除重复行并保留原有文件顺序的功能。

当然，我们也可以对该例进行下改变，通过判断某列的值相同，就只保留首行。

1
2
3

awk '!a[$3]++' filename

删除第三列重复的行

1 2	awk '!a[$NF]++' filename 删除最后一列重复的行

如何在去除重复行时对空白行不做处理，我这里总结了三种实现方法（都是仅使用awk工具），具体如下（为了便于区分，这里我使用nl命令加了行号）：

[root@361way ~]# cat a.txt |nl -b a   #原文件
     1  1 2 3
     2  1 2 3
     3
     4
     5  1 2 4
     6  1 2 3
     7
     8
     9  1 2 5
[root@361way ~]# awk '!NF || !a[$0]++'  a.txt |nl -b a   #方法一
     1  1 2 3
     2
     3
     4  1 2 4
     5
     6
     7  1 2 5
[root@361way ~]# awk '!NF {print;next} !($0 in a) {a[$0];print}'  a.txt |nl -b a   #方法二
     1  1 2 3
     2
     3
     4  1 2 4
     5
     6
     7  1 2 5
[root@361way ~]# awk '!/./ || !a[$0]++' a.txt |nl -b a  #方法三
     1  1 2 3
     2
     3
     4  1 2 4
     5
     6
     7  1 2 5

指定列去重（经典之作）

1	awk '!a[$1]++'

解释

<1> ：”!” 即非。

<2>：a[$0]，以$0为数据下标，建立数组a

<3>：a[$0]++，即给数组a赋值，a[$0]+=1