A
attemptno_vs_ac
尝试次数 vs AC 率(学习/难度效应)
解释 attempt_no 与成功率关系:可能存在“越试越会”,也可能是“难题才会多次尝试”。
A
difficulty_vs_ac
难度 vs AC 率(合理性校验)
检验难度标注是否可信:通常难度越高,AC 率应整体下降。
A
lang_acrate
不同语言的平均 AC 率(相关性,不是因果)
检查语言与通过率是否有关联(更多反映用户群体/题目选择偏差,不建议因果解读)。
A
language_dist
语言分布(按提交次数)
检查语言总体占比是否符合常识,也用于说明语言特征有“可学习”的差异。
A
level_hist
level 分布(能力画像是否有区分度)
用来检验能力画像 level 是否能把用户区分开(而不是全部挤在 0 或 1)。
A
perseverance_hist
perseverance 分布(坚持/重试画像)
用来观察用户坚持度(重试倾向)的差异,避免全部接近 0 或 1。
A
tag_acrate
不同标签的平均 AC 率(题型差异)
展示不同题型的平均通过率差异,用于说明标签特征有信息量。
A
tag_dist
标签分布(题型占比)
检查题库题型是否极端失衡;过度失衡会让模型/推荐更同质化。
A
user_activity
用户活跃度分布(提交次数长尾)
展示典型长尾:少数高活跃用户贡献大量提交,大量用户只有少量记录。