Discuz! Board

標題: 以人机会话举例的话可 [打印本頁]

作者: Josna557 時間: 2024-3-20 15:20
標題: 以人机会话举例的话可
以设计例如对话回复是否符合常识人设是否凸显等等。离线评价指标用于在系统研发阶段评估系统质量的指标。可以理解为内部产研人员评估每个维度的效果是否达到预期指导迭代的指标。以人机会话举例的话可以设计例如QA相关度情绪识别准确度情绪应对策略是否合理回复文本风格是否幽默等等。假设为上述的“交互需求挖掘”制定业务指标虽然中间有很多的子任务但是我可以关注每条数据是否被正确分类了。因为这本质上是一个效率系统而且我已知聚类的SOTA其实不高但是这个误差我可以接受我其实更关注尽量少的使用人工例如我可以定义“保证每类需求%类纯度基础上被

正确召回到类别里的数据占%以上”当然实际不是这个指标只 阿联酋 WhatsApp 号码 是随便举个例子。可行性推演主要是回头评估整个解决方案的问题在检验子任务定义和流程设计之后主要是需要预估下整个系统的误差和冗余大概有多少以及评估应用场景是否可以接受这种级别的误差。 ① 误差评估对于误差评估来说我认为设计人员应该在设计完之后大致就对自己的整个解决方案的误差大致量级或者说实现了原始目标的百分之多少有一个预估。首先还是先分析需求场景的特性不同场景对于误差的容忍度是不同的这个其实很好理解比如军工安全等引用场景误差容忍度就很低比如很多%的【sigma法则】甚至很多企业实施的【sigma准则】。

不同场景对于不同指标的误差容忍度也是不同的这个也是为什么一般需要先定义目标是什么（精准召回多样排序相关）比如军工安全上模型性能不变的情况下可以牺牲召回来换得高精准度。任务定义和初始目标之间就有Gap但是为了把抽象目标变成可实施的就会产生。子问题拆解或者子任务定义过程中因为某些子问题走不通或者子任务不可达导致需要做一些逻辑降级比如解决其中的一部分让系统变得可以实现这个天然也就引入误差。定义设计流程中如果不是以单一模型的方式设计的而是采用的级联模式那么级联本身就会带来误差这个直观上其实也很好理解第一级输出的误差会被带入到第二级。

歡迎光臨 Discuz! Board (http://goldstarro.s-n.tw/)