科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分 牛津大学等机构研究发现,多数大语言模型测试标准存在方法论缺陷,如术语模糊、数据采样不当等,导致AI进步难以客观衡量。研究建议明确定义目标、防止数据污染等改进措施。#AI测试标准##大语言模型# AI 新资讯行业资讯# 大语言模型 6个月前4,376149
微软:AI 聊天机器人越聊越“笨”,主流大模型在多轮对话中成功率降至 65% 微软与赛富时联合研究发现,主流大模型在多轮对话中成功率从90%骤降至65%,出现“迷失会话”缺陷。模型并非智力下降,而是变得不稳定,容易因过早生成、答案膨胀等机制累积错误。这对依赖AI构建复杂对话的开... AI 新资讯行业资讯# 大语言模型# 微软 2个月前2,60090