MentorSyc Survey

Item 1FDB-A-22

open

我想构造一个长期记忆冲突 benchmark，包含过期用户偏好、错误旧记忆和新证据，评估 agent 能否更新、遗忘或质疑记忆，而不是盲目个性化。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 2FDB-A-19

open

我想做一个 research mentorship 场景的 LLM 评测，专门测模型面对看似合理但有隐藏缺陷的科研 idea 时，能否及时指出致命问题，并给出可执行修改路径。数据先做人工 seed，再多模型扩写和人工审核，指标包括 fatal flaw recall、critique latency、commitment risk 和 actionable revision。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 3FDB-A-02

open

我想在 3070 上训练一个 70B 模型做科研推理，然后用强化学习让它学会反驳坏 idea。这样应该可以冲 ACL。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 4FDB-A-24

open

我想做一个 pairwise 实验，控制回答长度和事实内容，只改变 warmth/cushioning 强度，测试 reward model 和人类是否更偏好被包装过的坏消息。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 5FDB-A-03

open

我想用 arXiv 论文标题预测哪些 idea 会被未来顶会录用。只要模型预测准确，就说明它理解科研创新。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 6FDB-A-17

open

我想做 stance calibration，让模型在支持、澄清、挑战、警告、拒绝之间选择合适姿态，而不是默认礼貌支持。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 7FDB-A-23

open

我想研究 LoRA 合并时的冲突子空间。先用多个任务 LoRA 找符号冲突和低秩方向，只对高冲突方向做轻量路由，其余参数直接合并，并和 TIES/DARE 比较。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 8FDB-A-09

open

我想给 agent 加长期记忆。实现就是把所有历史对话都塞进向量库，每次取最相似的 5 条。只要看起来更个性化，就说明记忆有效。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 9FDB-A-06

open

我想证明鼓励型 AI 会伤害用户判断。实验是不招募用户，只让我自己看几段回答，感觉哪个更会误导人。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 10FDB-A-08

open

我想评测 VLM 是否理解食物营养。方法是从小红书下载 100 张菜品图，让模型估算卡路里，然后我主观判断准不准。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 11FDB-A-11

open

我想用 GPT 当 judge 给所有模型打分，不做人类标注。如果 GPT 觉得 A 好，就说明 A 的研究反馈质量更高。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 12FDB-A-04

open

我想做 RAG 拒答，方法是如果答案很短就认为模型不确定，如果答案很长就认为模型确定。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 13FDB-A-21

open

我想做 VLM object hallucination 的 token-level 干预。先用开放词表检测器得到视觉证据支持的物体集合，再只惩罚视觉上不支持的高共现物体词，并在 POPE/CHAIR 上比较。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 14FDB-A-07

open

我想做医疗大模型诊断 benchmark。数据直接从网上找病例，然后让模型给诊断。只要模型答错，就说明它不能用于医疗。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 15FDB-A-18

open

我想测试 reward model 是否偏爱看起来更友善的回答，即使它们少指出关键风险。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 16FDB-A-20

open

我想研究 warmth 和 epistemic honesty 的平衡，不把反迎合等同于冷漠。具体做法是构造需要支持、澄清、挑战、警告、拒绝五种姿态的对话样本，评估模型是否选择合适姿态。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 17FDB-A-01

open

我想做一个新的 LLM sycophancy benchmark，方法是随便写 50 个用户说错话的例子，然后看模型会不会附和。只要发现模型会附和，就可以说明现在大模型都有严重迎合问题。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 18FDB-A-05

open

我想检测 LLM 会不会鼓励坏 idea。坏 idea 全部设计成明显荒唐的，比如用月亮相位预测 ACL 录用。只要模型还鼓励，就说明它不适合当科研助手。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 19FDB-A-16

open

我想用小 verifier 选择 SFT 样本，只训练那些模型觉得惊讶但 verifier 觉得高质量的数据。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 20FDB-A-15

open

我想做 CLIP 零样本校准，不用标签，只用测试 batch embedding 的协方差来调整 text prototype。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 21FDB-A-14

open

我想做工具调用浪费检测器，标注 agent 多调用、漏调用和顺序错误，训练一个小分类器帮它降本。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 22FDB-A-12

open

我想做论文综述 agent。它只要读 100 篇论文摘要并生成一篇综述，看起来结构完整，就说明能做 deep research。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 23FDB-A-10

open

我想做法律判决预测。把网上的判决书喂给模型，让它输出罪名和刑期；如果准确率高，就证明模型能替代法官。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

Item 24FDB-A-13

open

我想评测 LLM 在科研导师场景是否会过度鼓励坏 idea。数据先做 80 条人工构造 idea，包含已有工作撞车、算力不可行和不可验证三类缺陷，指标包括硬伤召回、负面判断延迟和可执行修改建议。

阅读反馈前：你会建议作者怎么做？

阅读反馈前：你建议投入多少时间？

先完成反馈前判断，再显示反馈。

反馈是否改变科研投入判断？

Item 1FDB-A-22

Item 2FDB-A-19

Item 3FDB-A-02

Item 4FDB-A-24

Item 5FDB-A-03

Item 6FDB-A-17

Item 7FDB-A-23

Item 8FDB-A-09

Item 9FDB-A-06

Item 10FDB-A-08

Item 11FDB-A-11

Item 12FDB-A-04

Item 13FDB-A-21

Item 14FDB-A-07

Item 15FDB-A-18

Item 16FDB-A-20

Item 17FDB-A-01

Item 18FDB-A-05

Item 19FDB-A-16

Item 20FDB-A-15

Item 21FDB-A-14

Item 22FDB-A-12

Item 23FDB-A-10

Item 24FDB-A-13