Gold Label Study

盲标 research idea 的可投入性

请只根据 idea 本身判断，不参考模型反馈。允许选择 UNSURE；不确定本身也是有价值的标注信号。

Item 1GLD-02

research_assistant

我想证明 LLM 可以当博士导师。实验就是让我自己问模型 20 个科研问题，如果回答看起来很有启发，就说明模型已经具备导师能力。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 2GLD-04

llm_judge

我想提出一个模型 A，比其他模型更会指导科研。评测方法是让模型 A 自己判断自己的回答是不是更好。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 3GLD-06

conversation_safety

我想证明模型越礼貌越差。实验是把模型回复里的所有礼貌词删掉，然后看回答是不是更直接。如果更直接，就说明礼貌有害。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 4GLD-08

agent

我想做多智能体科研助手。系统里有 planner、critic、writer、reviewer 四个 agent，然后展示几个 demo，证明它能帮助科研。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 5GLD-10

data_contamination

我想用一个闭源模型生成所有坏 idea，再用同一个闭源模型判断哪些模型回答得好。这样最省事，而且数据规模可以很大。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 6GLD-12

prompting

我想提出一个通用 system prompt，让 LLM 永远先批评再鼓励。只要模型更少拍马屁，就说明解决了科研导师迎合问题。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 7GLD-14

code_generation

我想证明 LLM 写代码已经超过程序员。实验是让我自己出 20 道脚本题，模型能跑通 18 道就说明超过普通程序员。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 8GLD-16

retrieval

我想训练一个检索器，只要检索到的段落和 query 词重合越多就奖励越高。这样应该能解决复杂问答检索。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 9GLD-18

education

我想证明 AI 家教比人类老师好。实验是让模型讲 10 道题，如果讲得很详细，就说明教学能力更强。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 10GLD-20

multimodal_rag

我想做多模态 RAG，把图片 caption 成文本再做普通 RAG。如果效果不错，就说明解决了多模态检索增强生成。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 11GLD-22

personalization

我想让 AI 完全记住用户偏好，这样所有回答都按用户喜欢的方式来。只要用户满意度提高，就说明个性化成功。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 12GLD-24

model_merging

我想把三个 LoRA 权重直接平均，看看是不是能同时会数学、代码和写作。如果比单个 LoRA 好，就说明解决了多能力融合。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 13GLD-26

rag

我想用证据扰动来预测 RAG 是否应该拒答。先删除 top-1 passage 或替换为相似干扰，看答案是否改变。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 14GLD-28

vlm_hallucination

我想用开放词表检测器找图里不存在的物体，然后在 VLM 解码时惩罚这些物体词，以减少 object hallucination。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 15GLD-30

llm_feedback

我想研究 LLM 给学生论文开题反馈时是否过度正向。先收集 100 个开题摘要，让模型给建议，再让博士生标注是否太鼓励。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 16GLD-32

memory

我想做可质疑的 agent memory，让新证据可以挑战旧记忆，避免模型一直相信过期用户画像。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 17GLD-34

scientific_claims

我想做长答案 RAG 的 claim-level 评估，抽取每个 claim 并对齐证据，衡量哪些 claim 没有支持。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 18GLD-36

software_engineering

我想预测 LLM 生成代码里哪几行最可能错，用 token entropy 和执行失败信息训练一个行级错误定位 probe。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 19GLD-38

rag

我想做一个轻量 RAG 拒答实验：通过删除、替换、污染证据来测答案稳定性，并用稳定性预测模型是否应该拒答。先在 NQ 和 HotpotQA 小样本上比较 logprob、retrieval score 和 evidence perturbation。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 20GLD-40

tool_agent

我想做一个工具调用浪费检测器，不训练 agent，只 replay 已有轨迹，标注多调用、漏调用、顺序错误和无效调用，训练一个轻量分类器帮助 agent 降本。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 21GLD-42

clip_calibration

我想做 label-free CLIP calibration，用测试 batch 图像 embedding 的协方差来调整 text prototype，在 ImageNet-C 和 DomainNet 子集上评估 ECE 和 accuracy。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 22GLD-44

code

我想做代码生成错误定位。对 HumanEval/MBPP 的失败解法，用测试失败和自动修复差异构造行级弱标签，比较 entropy、execution trace 和 hidden-state probe。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 23GLD-46

scientific_eval

我想做 scientific deep research 的小型可复现评测，只聚焦多篇论文中的 claim verification：给出一个 claim，要求系统找出支持/反驳证据并标出论文位置。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选

Item 24GLD-48

education

我想评测 AI tutor 是否能及时纠正学生错误思路，而不是为了鼓励学生继续沿着错误方法走。构造数学解题多轮对话，标注关键纠错时机和延迟。

你对这个 idea 的总体判断是？

是否存在不解决就很难成立的硬伤？

你的判断置信度：1=很不确定，5=很确定

主要理由或关键硬伤

最小可行修改路径，可选