异常值检测概览

异常值检测是一种数据挖掘技术,可用于识别特定数据集中的数据偏差。例如,如果给定产品的退货率远高于该产品的基准值,则可能表示产品存在缺陷或潜在欺诈。您可以使用异常值检测功能来检测重大突发事件(例如技术问题)或机会(例如消费者行为的变化)。

使用异常值检测时,一个难点是确定哪些数据计为异常数据。如果您已为用于识别异常值的数据添加标签,则可以使用以下监督式机器学习模型之一执行异常值检测:

  • 线性回归模型和逻辑回归模型
  • 提升树模型
  • 随机森林模型
  • DNN 和 Wide & Deep 模型
  • AutoML 模型

如果您不确定哪些数据计为异常数据,或者没有带标签的数据来训练模型,则可以使用非监督式机器学习执行异常值检测。将 ML.DETECT_ANOMALIES 函数与以下模型之一搭配使用,以检测训练数据或新服务数据中的异常值:

数据类型 模型类型 ML.DETECT_ANOMALIES 的作用
时序 ARIMA_PLUS 检测时序中的异常值。
ARIMA_PLUS_XREG 使用外部回归器检测时序中的异常值。
独立同分布随机变量 (IID) K-means 根据从输入数据到每个聚类形心的归一化距离中的最短距离来检测异常值。如需了解归一化距离的定义,请参阅 ML.DETECT_ANOMALIES 函数的 k-means 模型输出
自动编码器 根据均方误差的重构损失来检测异常值。如需了解详情,请参见 ML.RECONSTRUCTION_LOSSML.RECONSTRUCTION_LOSS 函数可以检索所有类型的重构损失。
PCA 根据均方误差的重构损失来检测异常值。