个性化阅读
专注于IT技术分析

Python如何以及在哪里应用特征缩放?

点击下载

功能缩放或标准化

:这是数据预处理的步骤, 适用于数据的自变量或特征。从根本上说, 它有助于标准化特定范围内的数据。有时, 它也有助于加快算法的计算速度。

使用的包:

sklearn.preprocessing

import:

from sklearn.preprocessing import StandardScaler

后端中使用的公式

标准化将值替换为其Z分数。

Python |如何以及在哪里应用特征缩放?1

主要是适合方法用于特征缩放

fit(X, y = None)
Computes the mean and std to be used for later scaling.
import pandas as pd
from sklearn.preprocessing import StandardScaler
  
# Read Data from CSV
data = read_csv( 'srcmini.csv' )
data.head()
  
# Initialise the Scaler
scaler = StandardScaler()
  
# To scale data
scaler.fit(data)

为什么以及在何处应用特征缩放?

现实世界的数据集包含的特征在大小, 单位和范围上都有很大差异。当要素的比例尺无关或具有误导性时, 应执行规范化, 而在比例尺有意义时, 则不应进行规范化。

使用欧几里得距离测度的算法对幅度敏感。这里的特征缩放有助于平均权衡所有特征。

正式地, 如果数据集中的某个要素比其他要素具有更大的比例, 那么在测量欧几里德距离的算法中, 这个大规模的要素将成为主导并需要进行标准化。

特征缩放很重要的算法示例

1.K均值

在这里使用欧几里得距离度量来衡量要素缩放。

2.K最近邻

还需要特征缩放。

3.主成分分析(PCA):尝试获取具有最大方差的特征, 这里也需要特征缩放。

4.梯度下降:随着特征缩放后Theta计算变得更快, 计算速度也随之提高。

注意:

朴素贝叶斯, 线性判别分析和基于树的模型不受特征缩放的影响。

简而言之, 任何算法

基于距离的是

受功能缩放的影响。

首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。


赞(2)
未经允许不得转载:srcmini » Python如何以及在哪里应用特征缩放?

评论 抢沙发

评论前必须登录!