R分类示例详解

分类算法的思想非常简单。我们通过分析训练数据集来预测目标类别。我们使用训练数据集获得更好的边界条件, 这些条件可用于确定每个目标类别。确定边界条件后, 下一个任务是预测目标类别。整个过程称为分类。

分类算法有一些要点：

分类算法的类型

在R中, 分类算法大致分为以下几种类型：

线性分类器

在机器学习中, 统计分类的主要任务是使用对象的特征来查找对象所属的类。通过基于特征的线性组合的值进行分类决策来实现此任务。在R中, 存在三种线性分类算法, 如下所示：

支持向量机

支持向量机是一种监督学习算法, 用于分析用于分类和回归分析的数据。在SVM中, 将每个数据项绘制为n维空间中的一个点, 其中包含每个属性的值, 即特定坐标的值。

最小二乘支持向量机是R中最常用的分类算法。

二次分类器

二次分类算法基于贝叶斯定理。这些分类器算法与逻辑回归的分类方法不同。在逻辑回归中, 可以直接得出特定观测值(X = x)的类别(Y = k)的观测概率。但是在二次分类中, 观察是通过以下两个步骤完成的：

内核估计

核估计是一种估计连续随机变量的概率密度函数(PDF)的非参数方法。它是非参数的, 因为它不假定变量的隐式分布。本质上, 在每个基准面上都创建了一个以基准为中心的内核函数。它确保内核关于基准是对称的。然后通过添加所有这些内核函数并将其除以数据数量来估计PDF, 以确保它满足PDF的两个属性：

在R中, k最近邻是用于分类的最常用的核估计算法。

决策树

决策树是一种监督学习算法, 用于分类和回归任务。在R中, 决策树分类器是在R机器学习插入符号包的帮助下实现的。随机森林算法是R中最常用的决策树算法。

神经网络

神经网络是另一种分类器算法, 受人脑启发, 可以执行特定任务或功能。这些算法主要用于R中的图像分类。要实现神经网络算法, 我们必须安装Neuronet软件包。

学习矢量量化

学习矢量量化是一种用于二元和多分类问题的分类算法。通过学习训练数据集, LVQ模型可以创建代表类区域的码本向量。它们包含根据其匹配级别放置在各个类周围的元素。如果该元素匹配, 则它移近目标类, 如果不匹配, 则它继续。