免费 · 无需登录 · 浏览器本地计算
B 版真的比 A 版好吗,
还是只是运气?
填 4 个数字 —— A 版观察 / 转化 + B 版观察 / 转化。我们用两比例 z 检验算 p-value, 用 Wilson score 给置信区间,告诉你"B 显著胜 / A 显著胜 / 差异还不显著"。 不显著时还告诉你"距离显著还需再跑多少样本"。
适用 CTR / CVR / 完播率 / 收藏率 · 数据不离浏览器 · Arcads / HeyGen / Creatify / Veo 没做
你的数据
A 版
B 版
高级: 置信度 / 最低可检出提升
两比例 z-test + Wilson 置信区间 + 样本量公式 (alpha=0.05, power=0.8)。
纯浏览器计算,数据不上传。不构成统计咨询意见。
B 版显著胜出
p = 0.0144
B 的转化率 3.40% 显著高于 A 的 2.80% (p=0.0144 < α=0.05)。可以全量 B。
A 版
2.80%
280 / 10,000
CI [2.49%— 3.14%]
B 版
3.40%
340 / 10,000
CI [3.06%— 3.77%]
绝对差
0.60 pp
B 减 A 的百分点差
相对提升
21.4%
B 相对 A 的 lift
置信度
99%
1 - p 的估算
不显著 ≠ 无差异。只是当前样本看不到稳定信号 —— 继续跑或换更大效应验证。
提前 peek 会膨胀假阳性。跑满样本量再读结果更稳。
这张计算器的 4 条底线
明确统计方法
两比例 z-test + Wilson score CI + 双尾 p-value。每个公式都在源码 ab-test-analyzer.ts 里可读,不是黑盒。
不显著 ≠ 无差异
结果页永远告诉你这一点。避免 II 型错误 —— 没看到差异 不等于 没差异,可能只是样本量不够。
自动抓输入陷阱
样本总数 < 200 / 两组差距 > 30% / 两边转化都是 0 都会提示。防止看错数导致误判。
浏览器本地,不上传
所有计算在你的浏览器里做,你断网照样能用。不调 LLM、不记录输入数据、不写服务器日志。
常见问题
用的是什么统计方法?
两比例 z 检验 (two-proportion z-test) + Wilson score 置信区间 + 双尾 p-value。样本量估算采用标准双尾公式 (alpha=0.05, power=0.8 默认可调)。全部数学在浏览器本地完成,不调任何服务。
p-value 0.03 是不是就说明 B 一定比 A 好?
不是。p=0.03 仅表示"若 A 和 B 真无差异,观察到当前或更极端差异的概率是 3%"。它不等于 B 比 A 好的概率是 97%。实践中 p<0.05 通常接受 B 显著胜,但仍要配合效应量 (lift)、业务场景和外部效度综合判断。
为什么结果说"不显著" 但 B 看起来比 A 高?
差异可能是随机波动。样本越小,随机抖动越容易看起来像真实差异。工具会告诉你"距离显著还需跑多少样本",跑满再读结果更稳。提前停 (early peek) 会膨胀假阳性率,是 A/B 测试最常见错误。
多少样本才够?
取决于基础转化率和最低可检出提升 (MDE)。转化率 3% + 想检出 10% 相对提升,每组通常需 15000+ 样本。工具右侧会给你具体数字。转化率越低、MDE 越小,所需样本越多。
这个工具能做更复杂的 A/B/n 多臂测试吗?
当前只支持 2 版比较 (A vs B)。多臂需要控制家族错误率 (Bonferroni / BH),逻辑复杂度不同,这是后续迭代方向。连续型指标 (时长 / 金额) 现阶段也不支持,只做比例型。
算完显著性,接下来做什么?
赢的那版放大投,输的那版进 post-mortem 诊断为什么掉,之后用 benchmark-ranker 看整体 portfolio 水位。