数据预处理|关于标准化和归一化的一切

2023-06-26 15:08:35

数据预处理是最令数据科学家头秃的工作

之前在知乎看过一个问题你为什么离开数据科学行业?一位知友est答曰：数据清洗10小时，拟合2分钟，如此重复996。

这条回答下面的评论更是精彩，居然真的会眼瞎。。。

之前推送过一篇数据处理方面的文章，整理一份详细的数据预处理方法

里面有一个问题没有说清楚，而且网上很多博客和公众号推文也都写的有点乱，这就是归一化（Normalization）和标准化（Standardization）的事。

本文重点说以下三点

归一化和标准化之前的关系
为什么要归一化和标准化
哪些机器学习模型需要做归一化
如何做归一化和标准化

归一化和标准化之前的关系

这是目前最混乱的。

在统计学里并没有Standardization，只有Normalization，不管是把数据变为均值为0，方差为1的正态分布，还是把数据映射到[0,1]，都叫Normalization，其包括如下几种公式：

但是在机器学习领域，Normalization分为两个，一个是min-max normalization，，一个是Mean normalization：，机器学习里的Standardization特指把数据分布变为正态分布，

从sklearn的preprocessing里，不管是把数据分布变为均值为0，方差为1的正态分布还是把数据缩放到[0,1]都叫Standardization，当然把数据缩放为[-1,1]也叫Standardization，preprocessing里的Normalization里只包括正则化，即把x除以L1-范数或L2范数。

综上，把数据变为正态分布是标准化，把数据的范围缩放到[0,1]是归一化。

归一化/标准化的意义

1）归一化后加快了梯度下降求最优解的速度

这个图来自吴恩达的机器学习课程，被引用无数次了。蓝色的圈圈图代表的是两个特征的等高线，左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

2）归一化有可能提高精度

一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

哪些机器学习算法需要归一化

1）需要使用梯度下降和计算距离的模型要做归一化，因为不做归一化会使收敛的路径程z字型下降，导致收敛路径太慢，而且不容易找到最优解，归一化之后加快了梯度下降求最优解的速度，并有可能提高精度。比如说线性回归、逻辑回归、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要计算距离的模型需要做归一化，比如说KNN、KMeans等。

2）概率模型、树形结构模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、随机森林。

归一化/标准化如何实现？

这一部分实在没办法详解，最好的办法就是阅读文档，动手练习！

sklearn.preprocess模块官方文档

https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

apachecn小组已将sklearn汉化，请移步

https://sklearn.apachecn.org/#/docs/40?id=_53-预处理数据

参考

https://www.jianshu.com/p/45430e476a7b

https://www.zhihu.com/question/20467170

https://zhuanlan.zhihu.com/p/30358160

https://www.cnblogs.com/LBSer/p/4440590.html

https://blog.csdn.net/u014535528/article/details/82977653

https://www.zhihu.com/question/20455227/answer/197897298

关于本站

“机器学习初学者”公众号由是黄海广博士创建，黄博个人知乎粉丝22000+，github排名全球前110名（32000+）。本公众号致力于人工智能方向的科普性文章，为初学者提供学习路线和基础资料。原创作品有：吴恩达机器学习个人笔记、吴恩达深度学习笔记等。

往期精彩回顾

那些年做的学术公益-你不是一个人在战斗
适合初学者入门人工智能的路线及资料下载
吴恩达机器学习课程笔记及资源（github标星12000+，提供百度云镜像）
吴恩达深度学习笔记及视频等资源（github标星8500+，提供百度云镜像）
《统计学习方法》的python代码实现（github标星7200+）
精心整理和翻译的机器学习的相关数学资料
首发：深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书

备注：加入本站微信群或者qq群，请回复“加群”

加入知识星球（4300+用户，ID：92416895），请回复“知识星球”

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 方程组的几何解释 [MIT线代第一课pdf下载]
下一篇 > 产品经理相亲图鉴

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

数据预处理|关于标准化和归一化的一切

精心整理和翻译的机器学习的相关数学资料

备注：加入本站微信群或者qq群，请回复“加群”

加入知识星球（4300+用户，ID：92416895），请回复“知识星球”

相关文章