标签: 清洗之缺失值处理—删除

清洗之缺失值处理—删除

清洗之缺失值处理—删除

一、数据清洗
1、目的:让数据更加完整合理
2、为什么:数据可能存在缺失数据或异常数据,清洗就是对缺失的数据和异常的数据进行处理。
3、定义:数据清洗是通过删除,转换器,组合等方法,处理数据中的异常样本,为数据建模提供优质的数据的过程
4、包括:
缺失值处理
异常值处理
一.1、缺失值处理
1、缺失的原因:
人为疏忽、机器故障
人为刻意隐瞒部分数据
数据本身不存在
系统实时性高
历史局限性导致数据收集不完整
2、数据缺失类型:
完全随机缺失
随机缺失
非随机缺失
3、缺失值存在的形式:
np:nan 、” “、空格
4、缺失值处理的方式:
删除
填充
不处理
4.1 删除:
适用范围:数据量大,数据缺失值少的数据
方法:80%法则,缺失值超过总量20%,删除该属性
优点:操作简单
缺点:破坏数据的历史完整性
Python中用到的库:pandas

import pandas as pd
data=pd. read_csv(‘. /data02.csv’)
# 读取数据 (‘数据文件的路径’)
data. head() #读取数据前五行
print(type(data)) #查看数据类型
data. describe() # 查看详细信息 平均值,*大小值
#进行绘画展示
import missingno #导入库
import matplotlib. pyplot as plt #导入库
missingno. bar(data) #图画展示
#80%删除
drop_data=data. drop(axis=1,how=any,thresh=8000)
# axis=1 按列删除 0 :按行删除
#thresh:完整度

 

清洗之缺失值处理—删除

清洗之缺失值处理—删除

一、数据清洗
1、目的:让数据更加完整合理
2、为什么:数据可能存在缺失数据或异常数据,清洗就是对缺失的数据和异常的数据进行处理。
3、定义:数据清洗是通过删除,转换器,组合等方法,处理数据中的异常样本,为数据建模提供优质的数据的过程
4、包括:
缺失值处理
异常值处理
一.1、缺失值处理
1、缺失的原因:
人为疏忽、机器故障
人为刻意隐瞒部分数据
数据本身不存在
系统实时性高
历史局限性导致数据收集不完整
2、数据缺失类型:
完全随机缺失
随机缺失
非随机缺失
3、缺失值存在的形式:
np:nan 、” “、空格
4、缺失值处理的方式:
删除
填充
不处理
4.1 删除:
适用范围:数据量大,数据缺失值少的数据
方法:80%法则,缺失值超过总量20%,删除该属性
优点:操作简单
缺点:破坏数据的历史完整性
Python中用到的库:pandas

import pandas as pd
data=pd. read_csv(‘. /data02.csv’)
# 读取数据 (‘数据文件的路径’)
data. head() #读取数据前五行
print(type(data)) #查看数据类型
data. describe() # 查看详细信息 平均值,*大小值
#进行绘画展示
import missingno #导入库
import matplotlib. pyplot as plt #导入库
missingno. bar(data) #图画展示
#80%删除
drop_data=data. drop(axis=1,how=any,thresh=8000)
# axis=1 按列删除 0 :按行删除
#thresh:完整度

 

友情链接: SITEMAP | 旋风加速器官网 | 旋风软件中心 | textarea | 黑洞加速器 | jiaohess | 老王加速器 | 烧饼哥加速器 | 小蓝鸟 | tiktok加速器 | 旋风加速度器 | 旋风加速 | quickq加速器 | 飞驰加速器 | 飞鸟加速器 | 狗急加速器 | hammer加速器 | trafficace | 原子加速器 | 葫芦加速器 | 麦旋风 | 油管加速器 | anycastly | INS加速器 | INS加速器免费版 | 免费vqn加速外网 | 旋风加速器 | 快橙加速器 | 啊哈加速器 | 迷雾通 | 优途加速器 | 海外播 | 坚果加速器 | 海外vqn加速 | 蘑菇加速器 | 毛豆加速器 | 接码平台 | 接码S | 西柚加速器 | 快柠檬加速器 | 黑洞加速 | falemon | 快橙加速器 | anycast加速器 | ibaidu | moneytreeblog | 坚果加速器 | 派币加速器 | 飞鸟加速器 | 毛豆APP | PIKPAK | 安卓vqn免费 | 一元机场加速器 | 一元机场 | 老王加速器 | 黑洞加速器 | 白石山 | 小牛加速器 | 黑洞加速 | 迷雾通官网 | 迷雾通 | 迷雾通加速器 | 十大免费加速神器 | 猎豹加速器 | 蚂蚁加速器 | 坚果加速器 | 黑洞加速 | 银河加速器 | 猎豹加速器 | 海鸥加速器 | 芒果加速器 | 小牛加速器 | 极光加速器 | 黑洞加速 | movabletype中文网 | 猎豹加速器官网 | 烧饼哥加速器官网 | 旋风加速器度器 | 哔咔漫画 | PicACG | 雷霆加速