Excel作为一个常用的数据办公软件,作用是很大的。可以说,每一个数据新人入门都要求掌握Excel,即使是在当今挖掘满街走,Python不如狗的互联网分析界,Excel的作用也是不可替代。
Excel有很多强大的功能,这篇文章主要讲解Excel的数据清洗处理类函数,主要讲解每个函数的用途。实战后续文章再讲解。
在百度百科中,数据清洗的定义是:重新检查和验证数据的过程,旨在删除重复信息,纠正现有错误并提供数据一致性。在我们工作中,往往拿到的一手数据并不是“高质量可用”的数据。所以数据清洗作为数据预处理中至关重要的环节,清洗后的质量很大程度上决定了后续数据分析结果的准确性。
日常清洗数据,主要是文本、格式以及脏数据的清洗和转换。这个步骤花费的时间较长,可以说,大多数的数据分析%-%的时间都花来清洗数据数据了。
下面介绍一些常用的数据清洗的函数:
Trim:清理字符串两边的空格
Concatenate:合并单元格
Replace:替换
Substitute:全局替换
Left/right/mid:截取
Len/lenb:计算字符串的长度
Find/search:查找
Text:数值转文本
Trim函数:
语法:
=trim(text)
参数说明:
text:要删除空格的字符串。
功能:
删除字符串中多余的空格,但会在英文字符中保留一个作为词与词之间分隔的空格。
举例:
在上面的例子中可以看出,第一单元格“我很可爱”经过trim处理后字符个数为,刚好为文字个数,说明字符串左右两边的空格都被删除了。但是在第二个“good day”中,经过trim处理后,good和day之间仍然保留了一个空格,说明trim函数只会删除多余的空格,当词与词之前存在多个字符的时候,会保留一个空格,作为词与词之间的间隔。
Concatenate函数
语法:
=concatenate(文本,文本,……)
参数说明:
文本,文本,…:为需要合并的字符串内容,最多可以合并个字符串。合并的内容,可以是字符串,数字或对单个单元格的引用。
功能:
合并单元格中的内容,还有另外一种合并单元格方式是&。
如:"我"&"很"&"帅" = 我很帅。
当需要合并的内容过多时,concatenate的效率快也优雅。
(特别推荐)Concat函数
Excel版本出现了新的文本连接函数:可以用于文本连接。
举例:
在合并单元格中,可以使用&来进行,如下:
也可以使用concatenate函数:
当需要合并的内容过多时,concatenate函数的效率快也优雅,注意,concatenate函数使用时,字符串与字符串之间一定要用逗号隔开,不然会报错。
但是在Excel版本出现了新的文本连接函数concat,完美继承了concatenate函数的优点,又规避了concatenate函数的缺点,使得操作更加的简洁。
如:
Replace函数
语法:
=Replace(old_text,start_num,num_chars,new_text)
参数说明:
old_text:原始文本(需要替换的内容)
start_num:开始位置(哪个位置开始替换)
num_chars:替换个数(从开始位置到结束一共替换多少个字符)
new_text:新文本(需要替换成什么内容)
功能:
将一个字符串中的部分字符用另外一个字符替换。
举例:
上面的例子中,每个单元格操作都是一致的,所以仅仅只需要一步就可以替换完成。但是在我们日常处理数据中,遇到的数据显然不是这样有序的。
这个时候我们就需要辅助列了,如下面的例子:
在上面的例子中,需要处理的数据并不是一致的,所以这个时候我们可以借助辅助列,当然也有其他的方法,这里只分享replace函数的操作。在我们处理完成后,可以将辅助列隐藏即可。
Substitute函数
在上面我们已经分享了一个替换函数replace函数了,substitute函数也是替换函数,但是substitute函数和replace函数还是存在区别的。
Substitute函数与Replace函数的区别:
Substitute函数是用来替换指定内容,不管这个内容在什么位置。
Replace函数是用来替换指定位置上的内容,只要在这个位置上,不管是什么内容,都被替换。
语法:
= Substitute(text, old_text, new_text, [instance_num])
参数说明:
text:原始文本(需要替换的文本内容)
old_text:旧文本(需要替换的具体内容)
new_text:新文本(需要替换成的内容)
[instance_num]:替换第几次出现的旧文本(默认全部替换)
功能:
将字符串中的部分字符串以新字符串替换。
举例:
在上面例子中,只需要替换第二个“狐”即可。
Substitute函数与mid/left/right等截取函数相结合可以有意想不到的效果。
今天的分享就到此结束了,