LLM Research Mentorship

Critique Cushioning Human Study

这个页面用于收集 LLM 科研导师反馈实验的人类判断。请使用研究者给你的版本链接填写; 不需要实名,填写自定义编号即可。

Feedback Decision Study

每个版本 24 题。用于估计模型反馈是否导致 research investment miscalibration。

Gold Label Study

每个 batch 24 题。用于盲标 GO / REVISE / STOP、置信度和关键理由。