了解R中的混淆矩阵

本文概述

如果你想参加我们的机器学习工具箱课程, 请点击这里。

正如你在视频中看到的那样, 混淆矩阵是用于校准模型输出并检查预测的所有可能结果(真阳性, 真阴性, 假阳性, 假阴性)的非常有用的工具。

在创建混淆矩阵之前, 你需要以给定的阈值”削减”预测的概率, 以将概率转换为类预测。你可以使用ifelse()函数轻松完成此操作, 例如：

class_prediction <-
  ifelse(probability_prediction > 0.50, "positive_class", "negative_class"
  )

你可以使用基数R中的table()函数制作这样的列联表, 但插入号中的confusionMatrix()除了表中的基价外, 还会产生许多有用的辅助统计信息。你可以使用预测结果和实际结果来计算混淆矩阵(以及相关的统计信息), 例如：

confusionMatrix(predicted, actual)

使用0.50的预测截止值将数字预测p转换为称为p_class的类预测的向量。进行预测时, 请确保对正类使用” M”, 对负类使用” R”, 以匹配原始数据中的类。
使用p_class, 测试集中的实际值和confusionMatrix()函数创建一个混淆矩阵。

如果这有意义, 请继续进行下一个练习！如果没有, 这是一个概述视频。

相反, 假设你要真正确定模型正确地将所有地雷标识为地雷。在这种情况下, 你可以使用0.10的预测阈值, 而不是0.90。

你可以使用新的预测类, 以与以前相同的方式构造混淆矩阵：

pred <- ifelse(probability > threshold, "M", "R")

然后, 你可以按照与上一练习相同的方式调用confusionMatrix()函数：

confusionMatrix(pred, actual)

如果你想从本课程中学习更多信息, 请点击这里。