首页 > 分享 > 数据清洗第2篇章

数据清洗第2篇章

花匠小妙招
2025-01-01 19:44

数据清洗是数据分析过程中至关重要的一步，它确保数据的准确性、一致性和完整性。这不仅有助于提高分析结果的可靠性和有效性，还能为算法建模决策提供高质量的数据基础。在进行数据分析和建模的过程中，大量的时间花在数据准备上：加载、清理、转换和重新排列，这样的工作占用了工程师 80% 以上的时间。所以掌握常用的数据清洗方法，将帮助我们能更高效、更高质量完成数据清洗工作。

我们将从易到难来讲述数据清洗系列三篇章，本文为第二篇章：数据转换处理，包括数据映射、数据替换、数据离散化、数据标准化、数据归一化，我们将理论和实践结合，层层递进一步一步掌握缺数据转换的处理方法。

1、数据映射

在对数据进行清洗时，我们经常需要将数据进行分类，例如根据年龄划分为儿童/青年/中年/老年，根据分数划分为不及格/及格/良好/优秀等。在 pandas 中，我们可以使用 map 方法用于对 DataFrame 中的元素进行映射。如下所示，我们使用字典进行配置映射，我们根据姓名-性别配置表，基于 name 映射出 sex 列

import pandas as pd

frame_data = pd.DataFrame({'name': ['tom','paz','leo','tom','leo'],

'age': [11, 10, 10, 11, 12]})

mapping = {'tom':'男', 'paz':'女', 'leo':'男'}

frame_data['sex'] = frame_data['name'].map(mapping)

frame_data

name age sex

0 tom 11 男

1 paz 10 女

2 leo 10 男

3 tom 11 男

4 leo 12 男

当被映射的属性比较多时，单纯的配置表就无法满足我们的需求了。此时，我们可以使用函数进行转换，如下所示，配置表变成映射函数，函数中编写相应的映射逻辑

import pandas as pd

frame_data = pd.DataFrame({'name': ['tom','paz','leo','tom','leo'],

'height': [112, 100, 120, 101, 122]})

def height_type(height):

if height >= 120:

return 'high'

elif height < 110:

return 'low'

else:

return 'middle'

frame_data['type'] = frame_data['height'].map(height_type)

frame_data

name height type

0 tom 112 middle

1 paz 100 low

2 leo 120 high

3 tom 101 low

4 leo 122 high

2、数据替换

在数据预处理中，我们有时候要对数据进行替换处理。此时，我们可以使用 replace 方法用于替换 DataFrame 或 Series 中的特定值。它可以用于替换单个值、列表、字典或使用正则表达式进行复杂的替换。我们可以进行进行简单的单个值替换，如下所示

import pandas as pd

frame_data = pd.DataFrame({'name': ['tom','paz','leo','tom','leo'],

'age': [1, 10, 10, 1, 12]})

frame_data.replace(1, 11)

name age

0 tom 11

1 paz 10

2 leo 10

3 tom 11

4 leo 12

当然我们还可以使用字典配置来进行多行多列的替换

import pandas as pd

frame_data = pd.DataFrame({'name': ['tom','paz','leo','tom','leo'],

'age': [1, 10, 10, 1, 12]})

frame_data.replace({'name': {'paz':'jim'}, 'age': {1:11}})

name age

0 tom 11

1 jim 10

2 leo 10

3 tom 11

4 leo 12

如果有更复杂的替换场景，我们还可以使用正则表达式进行替换

import pandas as pd

frame_data = pd.DataFrame({'name': ['tom','paz','leo','tom','leo'],

'age': [1, 10, 10, 1, 12]})

frame_data.replace(to_replace=r'^t', value='T', regex=True)

name age

0 Tom 1

1 paz 10

2 leo 10

3 Tom 1

4 leo 12

replace 替换默认都是生成一个新的数据，我们如果想直接在原 DataFrame 上进行替换，可以设置 inplace=True

frame_data.replace(1, 10, inplace=True) 3、数据离散化

在数据预处理中连续值经常需要离散化（也叫分箱）进行分析，在 pandas 中可以使用 cut 进行数据的切分成组

import pandas as pd

series_data = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90])

bins = [0, 20, 50, 80, 100]

categories = pd.cut(series_data, bins)

百合花语大全各种百合花语是什么

百合寓意及花语

热点分享

家庭养花知识大全(家庭养花知识大全与技巧)

养花常识养花技巧 1.浇花 ①残茶浇花残茶用来浇花,既能保持土...

养花知识大全,养花技巧大全

养花知识绿萝是一种很常见的盆栽植物，因为四季翠绿、养护简单...

推荐分享

家庭养花风水知识家庭养花“五行说”

许多人喜欢在家庭里面养花，但不是很了解家庭养花风水知识。居家...

家庭养花知识大全家庭养花有什么好处

家庭养花知识大全家庭养花有什么好处爱花之人总是喜欢在家里...

热门点击排行

君子兰什么品种最名贵十大名贵君子兰排名

世界上最名贵的10种兰花图片，莲瓣兰价值高达1500万

分享分类导航

花卉

每日分享

花卉图片

养花生活

数据清洗第2篇章

百合花语大全 各种百合花语是什么

百合寓意及花语

家庭养花知识大全(家庭养花知识大全与技巧)

养花知识大全,养花技巧大全

家庭养花风水知识 家庭养花“五行说”

家庭养花知识大全 家庭养花有什么好处

百合花语大全各种百合花语是什么

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处