只需一步,快速开始
短信验证,便捷登录
军衔等级:
少尉
Majority:始终预测训练数据中最频繁的标签。 聚合概率/logits:从之前的研究中选取几种方法,包括计算这些值的最小值、最大值或平均值。 P(True):通过提示要求LLM评估其生成的正确性时。 Probing:在模型的中间激活上训练一个小分类器,以预测已处理文本的特征,这里使用线性探测分类器对静态token进行错误检测。
图(4a)中,模型通常会给出正确的答案,但偶尔会出错,这意味着存在正确的信息,但采样可能会导致错误。 图(4b)中,模型经常犯同样的错误,但仍保留了一些常识。 图(4c)中,模型生成了大量错误的答案,整体置信度较低。
举报本楼
发表回复 回帖后跳转到最后一页
手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图
GMT+8, 2024-12-23 21:16 , Processed in 0.211093 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed