🧠

OJ 数据分析与推荐

📈 首页大盘

搜索图表并点击图片查看解读(支持大图/要点/提示)。
总图数: 24
筛选与跳转
命名约定:fig_* 图表;fig_cm_* 混淆矩阵;fig_compare_* strict vs leaky 对比。
快速跳转: A / B / C / D
A B C D 其他

A. 数据层(训练前)

先证明数据与口径合理:分布符合常识、特征与 AC 率有可解释关联。
count: 9
A attemptno_vs_ac

尝试次数 vs AC 率(学习/难度效应)

解释 attempt_no 与成功率关系:可能存在“越试越会”,也可能是“难题才会多次尝试”。
A difficulty_vs_ac

难度 vs AC 率(合理性校验)

检验难度标注是否可信:通常难度越高,AC 率应整体下降。
A lang_acrate

不同语言的平均 AC 率(相关性,不是因果)

检查语言与通过率是否有关联(更多反映用户群体/题目选择偏差,不建议因果解读)。
A language_dist

语言分布(按提交次数)

检查语言总体占比是否符合常识,也用于说明语言特征有“可学习”的差异。
A level_hist

level 分布(能力画像是否有区分度)

用来检验能力画像 level 是否能把用户区分开(而不是全部挤在 0 或 1)。
A perseverance_hist

perseverance 分布(坚持/重试画像)

用来观察用户坚持度(重试倾向)的差异,避免全部接近 0 或 1。
A tag_acrate

不同标签的平均 AC 率(题型差异)

展示不同题型的平均通过率差异,用于说明标签特征有信息量。
A tag_dist

标签分布(题型占比)

检查题库题型是否极端失衡;过度失衡会让模型/推荐更同质化。
A user_activity

用户活跃度分布(提交次数长尾)

展示典型长尾:少数高活跃用户贡献大量提交,大量用户只有少量记录。

B. 训练层(训练后)

再展示模型效果与错误类型:F1 对比 + 混淆矩阵解释 precision/recall。
count: 5
B cm_logreg

混淆矩阵:逻辑回归

把 AC 当作正类,拆解 TP/FP/FN/TN,解释 Precision/Recall 的来源。
B cm_svm_linear

混淆矩阵:线性 SVM

把 AC 当作正类,拆解 TP/FP/FN/TN,解释 Precision/Recall 的来源。
B cm_svm_or_knn

混淆矩阵:SVM/KNN(对比)

把 AC 当作正类,拆解 TP/FP/FN/TN,解释 Precision/Recall 的来源。
B cm_tree

混淆矩阵:决策树

把 AC 当作正类,拆解 TP/FP/FN/TN,解释 Precision/Recall 的来源。
B model_f1_compare

模型 F1 对比(时间切分)

比较多个模型的整体分类效果(F1 兼顾 precision 与 recall)。

C. 推荐评估(Top‑K)

最后展示推荐效果:多策略对比(model / popular / random),并用案例与覆盖率解释推荐形态。
count: 3
C hitk_compare

Hit@K 对比曲线(多策略)

对比不同推荐策略的命中率:看 model 是否明显高于 random,以及与 popular_train 的差距。
C reco_coverage

推荐集中度与覆盖率(Top20 题被推荐次数)

检查是否总推荐少数热门题(同质化);标题中 coverage 越高说明覆盖越广。
C reco_difficulty_hist

推荐题难度分布(单用户案例)

检查推荐列表的难度结构是否“不过易也不过难”。

D. 严格无泄漏对比(strict vs leaky)

用于证明评估不失真:leaky 看未来会抬高指标,strict 更接近真实可部署效果。
count: 5
D compare_calibration

校准曲线对比(strict vs leaky)

对比 strict(可部署口径)与 leaky(看未来口径);若 leaky 明显更高则过去评估失真。
D compare_hitk

Hit@K 对比(strict vs leaky)

对比 strict(可部署口径)与 leaky(看未来口径);若 leaky 明显更高则过去评估失真。
D compare_pr

PR 曲线对比(strict vs leaky)

对比 strict(可部署口径)与 leaky(看未来口径);若 leaky 明显更高则过去评估失真。
D compare_precisionk

Precision@K 对比(strict vs leaky)

对比 strict(可部署口径)与 leaky(看未来口径);若 leaky 明显更高则过去评估失真。
D compare_roc

ROC 曲线对比(strict vs leaky)

对比 strict(可部署口径)与 leaky(看未来口径);若 leaky 明显更高则过去评估失真。

其他图表

未归类图表。
count: 2
其他图表 diag_user_104_candidate_p_by_diff

fig_diag_user_104_candidate_p_by_diff.png

图表:用于展示训练数据、模型评估或推荐效果。
其他图表 diag_user_104_reco_diff_hist

fig_diag_user_104_reco_diff_hist.png

图表:用于展示训练数据、模型评估或推荐效果。