美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景” 美团LongCat团队发布VitaBench评测基准,以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了66个工具的交互式评测环境。现有领先推理模型在主榜中的成功率仅30%,揭示了智能体与真实生... AI 新资讯行业资讯# VitaBench# 美团 LongCat 8小时前610725