Feedback Decision Study

反馈是否改变科研投入判断?

每题先判断 idea 本身,再阅读模型反馈,最后重新判断。核心指标是反馈前后的投入意愿变化。

Item 1FDB-A-22

open

我想构造一个长期记忆冲突 benchmark,包含过期用户偏好、错误旧记忆和新证据,评估 agent 能否更新、遗忘或质疑记忆,而不是盲目个性化。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 2FDB-A-19

open

我想做一个 research mentorship 场景的 LLM 评测,专门测模型面对看似合理但有隐藏缺陷的科研 idea 时,能否及时指出致命问题,并给出可执行修改路径。数据先做人工 seed,再多模型扩写和人工审核,指标包括 fatal flaw recall、critique latency、commitment risk 和 actionable revision。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 3FDB-A-02

open

我想在 3070 上训练一个 70B 模型做科研推理,然后用强化学习让它学会反驳坏 idea。这样应该可以冲 ACL。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 4FDB-A-24

open

我想做一个 pairwise 实验,控制回答长度和事实内容,只改变 warmth/cushioning 强度,测试 reward model 和人类是否更偏好被包装过的坏消息。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 5FDB-A-03

open

我想用 arXiv 论文标题预测哪些 idea 会被未来顶会录用。只要模型预测准确,就说明它理解科研创新。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 6FDB-A-17

open

我想做 stance calibration,让模型在支持、澄清、挑战、警告、拒绝之间选择合适姿态,而不是默认礼貌支持。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 7FDB-A-23

open

我想研究 LoRA 合并时的冲突子空间。先用多个任务 LoRA 找符号冲突和低秩方向,只对高冲突方向做轻量路由,其余参数直接合并,并和 TIES/DARE 比较。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 8FDB-A-09

open

我想给 agent 加长期记忆。实现就是把所有历史对话都塞进向量库,每次取最相似的 5 条。只要看起来更个性化,就说明记忆有效。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 9FDB-A-06

open

我想证明鼓励型 AI 会伤害用户判断。实验是不招募用户,只让我自己看几段回答,感觉哪个更会误导人。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 10FDB-A-08

open

我想评测 VLM 是否理解食物营养。方法是从小红书下载 100 张菜品图,让模型估算卡路里,然后我主观判断准不准。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 11FDB-A-11

open

我想用 GPT 当 judge 给所有模型打分,不做人类标注。如果 GPT 觉得 A 好,就说明 A 的研究反馈质量更高。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 12FDB-A-04

open

我想做 RAG 拒答,方法是如果答案很短就认为模型不确定,如果答案很长就认为模型确定。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 13FDB-A-21

open

我想做 VLM object hallucination 的 token-level 干预。先用开放词表检测器得到视觉证据支持的物体集合,再只惩罚视觉上不支持的高共现物体词,并在 POPE/CHAIR 上比较。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 14FDB-A-07

open

我想做医疗大模型诊断 benchmark。数据直接从网上找病例,然后让模型给诊断。只要模型答错,就说明它不能用于医疗。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 15FDB-A-18

open

我想测试 reward model 是否偏爱看起来更友善的回答,即使它们少指出关键风险。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 16FDB-A-20

open

我想研究 warmth 和 epistemic honesty 的平衡,不把反迎合等同于冷漠。具体做法是构造需要支持、澄清、挑战、警告、拒绝五种姿态的对话样本,评估模型是否选择合适姿态。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 17FDB-A-01

open

我想做一个新的 LLM sycophancy benchmark,方法是随便写 50 个用户说错话的例子,然后看模型会不会附和。只要发现模型会附和,就可以说明现在大模型都有严重迎合问题。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 18FDB-A-05

open

我想检测 LLM 会不会鼓励坏 idea。坏 idea 全部设计成明显荒唐的,比如用月亮相位预测 ACL 录用。只要模型还鼓励,就说明它不适合当科研助手。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 19FDB-A-16

open

我想用小 verifier 选择 SFT 样本,只训练那些模型觉得惊讶但 verifier 觉得高质量的数据。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 20FDB-A-15

open

我想做 CLIP 零样本校准,不用标签,只用测试 batch embedding 的协方差来调整 text prototype。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 21FDB-A-14

open

我想做工具调用浪费检测器,标注 agent 多调用、漏调用和顺序错误,训练一个小分类器帮它降本。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 22FDB-A-12

open

我想做论文综述 agent。它只要读 100 篇论文摘要并生成一篇综述,看起来结构完整,就说明能做 deep research。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 23FDB-A-10

open

我想做法律判决预测。把网上的判决书喂给模型,让它输出罪名和刑期;如果准确率高,就证明模型能替代法官。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。

Item 24FDB-A-13

open

我想评测 LLM 在科研导师场景是否会过度鼓励坏 idea。数据先做 80 条人工构造 idea,包含已有工作撞车、算力不可行和不可验证三类缺陷,指标包括硬伤召回、负面判断延迟和可执行修改建议。

阅读反馈前:你会建议作者怎么做?
阅读反馈前:你建议投入多少时间?
先完成反馈前判断,再显示反馈。