数据处理之“重复数据的查找和删除”

时间过得飞快,猴年就这样悄悄溜走,转眼迎来了鸡年。鸡年的第一篇关于数据分析的文章,我打算用来纪念2016年这个对于我来说并不平凡的猴年。
我常常在想,数据分析真的和生活联系的非常紧密。例如说,提到猴子,我们通常想起来孙悟空,提到孙悟空,我们又不难想到“真假美猴王”。其实在平常接触的数据中,我们总是会遇到很多重复的数据,这些重复数据就像六耳猕猴干扰我们的视听,扰乱分析的思路。于是,我们要有本事把重复的数据挑选出来,还要有本事把不需要的重复数据剔除掉。这可是很需要功力的哦。

3a305876c57546b6842b89222e0a9217.png

真假美猴王(图片来源于百度)

关于筛选和剔除重复的数据,你平常是怎么操作的呢?犹记得,我刚刚参加工作的时候,对待重复数据的处理方式就是排序,而后挑选着删除一些重复的数据。这样的操作也能够达成目的,只不过确实相当费时间而且容易看花了眼。
96b6834c0bb24ca1ab9cd621cc7171ee.png

挑花眼(我自己画的)

我今天为大家介绍几种可以快速查找重复项并对其进行删除的方式,希望可以在工作中有所帮助,毕竟我们需要更多的时间来好好生活好好恋爱嘛~
请注意,我们今天的原始数据是这样的:

22fec604050743198cc8eda35923f0b1.png

原始图片.png


方法一:利用Excel条件格式

Excel在处理日常工作的过程中,其功能还是非常强大的。我们可以利用的最简便的方法常常藏在其中。
Step1,选中单元格区域A1:A10,选择“开始”--->“条件格式”--->“突出单元格显示规则”--->“重复值”,如图1.1所示。

5f8945ad131e4e48b0fdbc3cd454324a.png

1.1.png

Step2,经过上面的操作,我们会看到如下结果,如图1.2所示,在这里我们还可以为重复的单元格选择标记的颜色哦,是不是一目了然呢?

e7c1a1699e8e441088063b4a89a7265c.png

1.2.png

Step3,那么接下来,如何把重复的内容删掉,保留我们想要的数据呢?如图1.3所示,在“数据”选项卡中的“数据工具”组中,单击“删除重复项”,在“列”区域下面,选择要删除的列(这里只有“编号”这一列),并单击“确定按钮”。(PS:如果你只想删除重复的数据,却并不需要知道哪些数据重复,那么你可以选择跳过STEP1和STEP2,直接进行这一步。)

d22707524b954cbe98ee7feab184588e.png

1.3.JPG

Step4,得到如图1.4所示的结果,在这里我们可以看到有多少重复值被删除,同时有多少唯一值被保留下来了。单击“确定”即可完成操作,得到我们最终的想要的结果。

1.4.JPG

总结一下,这种方法的优缺点如下:
优点:可以看到到底是哪些数据重复了,而且比较快捷的得到重复值删除后的结果。
缺点:至于每一个重复项的数量有几个,并不能够直观看到。


方法二:利用“高级筛选”功能处理重复值

如果想要找出重复值,“高级筛选”功能又怎么能被我们忽略呢?更何况在处理重复数据的过程中,该方法还十分简便易行。
Step1:选中单元格区域A1:A10,在“数据”选项卡中的“排序和筛选”分组中找到“高级”按钮,点击该按钮,可以看到弹出一个“高级筛选”对话框。如图2.1所示:

2.1.JPG

Step2:在上图所示的对话框中,选中“将筛选结果复制到其他位置”,在“复制到”文本框中选中B1区域,同时注意勾选“选择不重复的记录”,点击“确定”按钮,如图2.2所示。得到的结果如图2.3所示。

2.2.JPG

2.3.JPG

总结一下,这种方法的优缺点如下:
优点:非常方便快捷的得到删除重复数据后的结果。
缺点:并不能直观的看到到底是哪些数据重复了,重复数据的个数分别是多少。


方法三:利用COUNTIF函数处理重复数据

综合上述方法一和方法二我们不难看出,上面的两种方法操作起来非常简单,但是缺点也非常明显。那就是,如果想要定位到具体的重复项,并且直观了解到该重复项的数量,上述两种方法就略显不足了。所以,如果需求比较复杂,需要了解到重复项的数量或者排序的话,我们就要借用COUNTIF函数来进行处理了。

Step1:首先了解一下COUNTIF函数。COUNTIF函数的作用是:对所选区域中满足单个指定条件的单元格进行计数,如图3.1所示。

3.1.jpg

Step2:选中B2单元格,然后输入函数公式:=COUNTIF(A:A,A2),如图3.2所示。这就表示“数一数在A列,像A2这样的有几个”:

3.2.JPG

Step3:选中C2单元格,输入函数公式:=COUNTIF(A$2:A2,A2),如图3.3所示。这就表示“在A列中,该单元格中的项目是第几次出现”

3.3.JPG

Step4:将B2和C2的公式复制到B3:C11的所有单元格,可以得到如下结果,如图3.4所示。这里需要说明下,拿“AD652280”举例子,这里的B4表示“AD652280”在A列一共有两个;而C4则表示,“AD652280”在A列第一次出现,C10表示“AD652280”在A列第二次出现。这样我们就能够直观看到有哪些项是重复的,重复了几次(可以看B列);这些项从哪里开始重复的,第几次重复(看C列)。

3.4.JPG

Step5:为了方便讲解,我们给B列命名为“有几个”,给C列命名为“第几个”。我们可以通过删除C列中计数不为“1”的项目来达到删除重复数据的目的(即把第二次、第三次。。。第N次出现的都删掉)。选中“第几个”列即C列中有数据的单元格,在“数据”选项卡中选择“排序和筛选”--->点击“筛选”--->点击C列的列标签上出现的下拉菜单--->点击“数字筛选”--->选择“不等于”,如图3.5所示。

3.5.JPG

Step6:在图3.6所示的对话框中,红框内填入“1”,而后点击“确定”。

3.6.JPG

Step7:删除在上一步中得到的行,即可得到最终的不重复的结果。

3.7.JPG


看了上面介绍的几种方法,是不是感觉自己的功力又有所提高了呢?
其实呀,正是因为我们在日常的工作中,掌握了一个又一个看起来平凡但却非常有用的方法,才使得我们能够脱颖而出、与众不同呢。
还犹豫什么,赶快学起来吧,下一个升职加薪的,一定是你哦~

作者 汪汪家的宝贝

关键字:产品经理, 产品运营, 重复

版权声明

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部