差异可能是随机波动。样本越小，随机抖动越容易看起来像真实差异。工具会告诉你"距离显著还需跑多少样本"，跑满再读结果更稳。提前停 (early peek) 会膨胀假阳性率，是 A/B 测试最常见错误。

取决于基础转化率和最低可检出提升 (MDE)。转化率 3% + 想检出 10% 相对提升，每组通常需 15000+ 样本。工具右侧会给你具体数字。转化率越低、MDE 越小，所需样本越多。

当前只支持 2 版比较 (A vs B)。多臂需要控制家族错误率 (Bonferroni / BH)，逻辑复杂度不同，这是后续迭代方向。连续型指标 (时长 / 金额) 现阶段也不支持，只做比例型。

Question 1

用的是什么统计方法?

Accepted Answer

两比例 z 检验 (two-proportion z-test) + Wilson score 置信区间 + 双尾 p-value。样本量估算采用标准双尾公式 (alpha=0.05, power=0.8 默认可调)。全部数学在浏览器本地完成，不调任何服务。

Question 2

p-value 0.03 是不是就说明 B 一定比 A 好?

Accepted Answer

不是。p=0.03 仅表示"若 A 和 B 真无差异，观察到当前或更极端差异的概率是 3%"。它不等于 B 比 A 好的概率是 97%。实践中 p<0.05 通常接受 B 显著胜，但仍要配合效应量 (lift)、业务场景和外部效度综合判断。

Question 3

为什么结果说"不显著" 但 B 看起来比 A 高?

Accepted Answer

差异可能是随机波动。样本越小，随机抖动越容易看起来像真实差异。工具会告诉你"距离显著还需跑多少样本"，跑满再读结果更稳。提前停 (early peek) 会膨胀假阳性率，是 A/B 测试最常见错误。

Question 4

多少样本才够?

Accepted Answer

取决于基础转化率和最低可检出提升 (MDE)。转化率 3% + 想检出 10% 相对提升，每组通常需 15000+ 样本。工具右侧会给你具体数字。转化率越低、MDE 越小，所需样本越多。

Question 5

这个工具能做更复杂的 A/B/n 多臂测试吗?

Accepted Answer

当前只支持 2 版比较 (A vs B)。多臂需要控制家族错误率 (Bonferroni / BH)，逻辑复杂度不同，这是后续迭代方向。连续型指标 (时长 / 金额) 现阶段也不支持，只做比例型。

B 版真的比 A 版好吗,
还是只是运气?

这张计算器的 4 条底线