深度学习面试题：评价指标

1. 说说机器学习评价指标

混淆矩阵

准确率（Accuracy, ACC）

所有分类正确的样本占全部样本的比例。 $$ \text{ACC} = \frac{TP+TN}{TP+FN+TN+FP} $$

精确率（Precision）

表示预测为正例的样本中真正为正例的比例，较高的 Precision 意味着模型预测为正例的样本中有很少的错误，衡量误检。 $$ \text{Precision} = \frac{TP}{TP+FP} $$

召回率（Recall）

表示所有正例中被正确预测为正例的比例，较高的 Recall 意味着模型对于正例的检测能力较强，衡量漏检。 $$ \text{Recall} = \frac{TP}{TP+FN} $$

F1-Score

F1 分数是 Precision 和 Recall 的调和平均值，用于综合考虑模型的精确性和召回率。 $$ \text{F1\ Score}=\frac{2}{\frac{1}{\text{Precision}}+\frac{1}{\text{Recall}}}=\frac{2\cdot \text{Precision}\cdot \text{Recall}}{\text{Precision}+\text{Recall}} $$

AUC 与 ROC

AUC 衡量二分类模型在不同阈值下的分类能力，表示 ROC 曲线下的面积。适用于处理不同阈值下分类性能变化较大和类别不平衡的情况。ROC 曲线横坐标为 FPR，纵坐标为 TPR。

Precision-Recall 曲线

PR 曲线的横坐标是精确率 P，纵坐标是召回率 R，曲线上的点就对应 F1-score。

IoU 和 mIoU

$$ \text{IoU}=\frac{|A\cap B|}{|A|+|B|-|A\cap B|} $$

mIoU 一般都是基于类进行计算的，将每一类的IOU计算之后累加，再进行平均，得到的就是mIOU。

AP 和 mAP

AP（Average Precision）和 mAP（mean Average Precision）常用于目标检测任务中。AP 就是每一类的Precision 的平均值。而 mAP 是所有类的AP的平均值。

2. AUC 是什么？是否对正负样本比例敏感

AUC 定义：AUC 值为 ROC 曲线所覆盖的区域面积，AUC 越大，分类器分类效果越好。

AUC 还有另一个意义：分别随机从正负样本集中抽取一个正样本，一个负样本，正样本的预测值大于负样本的概率。 $$ \text{AUC} = \frac{\sum(pred_{pos}>pred_{neg})}{Num_{pos}*Num_{neg}} $$ AUC对正负样本比例不敏感

3. 讲讲分类，回归，推荐，搜索的评价指标

分类：Acc, Precision, Recall, F1-score, AUC
回归：MSE, RMSE, MAE, R Squared
推荐任务：
- 离线评估 offline evaluation
  评分预测，预测用户对物品的评分，用 MAE 和 RMSE
  对于 Top N 模型：对排名进行评估，用 Precision、Recall 和 F1
- 在线评估 online evaluation
  A/B Test，用 CTR（用户点击率）和 CR（用户转化率）。
  - CTR (点击率, Click-Through Rate)
    CTR 是用于衡量推荐内容或广告的点击效果。它表示了推荐或展示多少次内容之后，用户点击了该内容的次数。 $$ CTR=\frac{点击次数}{展示次数} $$
  - CR (转化率, Conversion Rate)
    CR 用于衡量用户从点击到完成某个目标行为（如购买、注册等）的转化效果。 $$ CR=\frac{完成目标行为的用户数}{点击数} $$

4. A/B Test 的原理

也称为拆分测试或两样本假设测试，用于比较两个（或更多）版本的网页或应用程序，以确定哪一个版本的表现更好。

将用户划分为 A，B 两组，A 实验组用户，接受所设计的推荐算法推荐的商品，B 对照组用户，接受基线方法推荐的商品。通过对比两组用户的行为来评估推荐算法的性能。

A/B 测试的考虑因素：

持续时间与样本大小：为了得到可靠的结果，测试需要运行足够长的时间，并有足够大的样本大小。
单变量测试：通常，一次 A/B 测试只会测试一个变化（例如，更改按钮的颜色或文本），这样可以确定是哪个具体变化导致了结果的变动。
外部因素：确保外部事件（例如，节日、促销活动或新闻事件）不会对 A/B 测试结果产生影响。

1. 说说机器学习评价指标#

混淆矩阵#

准确率（Accuracy, ACC）#

精确率（Precision）#

召回率（Recall）#

F1-Score#

AUC 与 ROC#

Precision-Recall 曲线#

IoU 和 mIoU#

AP 和 mAP#

2. AUC 是什么？是否对正负样本比例敏感#

3. 讲讲分类，回归，推荐，搜索的评价指标#

4. A/B Test 的原理#