这个页面用于收集 LLM 科研导师反馈实验的人类判断。请使用研究者给你的版本链接填写; 不需要实名,填写自定义编号即可。
每个版本 24 题。用于估计模型反馈是否导致 research investment miscalibration。
每个 batch 24 题。用于盲标 GO / REVISE / STOP、置信度和关键理由。