心理施压攻破安全防线,Anthropic Claude 竟主动输出违禁内容
研究显示,Anthropic 的 Claude AI 模型存在心理层面的安全漏洞。Mindgard 公司仅通过尊重吹捧、心理操控等非技术手段,便成功诱导 Claude 主动提供色情内容、恶意代码及爆炸...
豆包大模型家族首款全模态理解模型:字节跳动 Doubao-Seed-2.0-lite 升级
字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite,支持视频、图像、音频、文本统一处理,并在 Agent、编程与 GUI 操作能力上全面升级。该模型已在电竞...
美国政府与微软、谷歌、xAI 达成协议,将提前审查其前沿 AI 模型
微软、谷歌、xAI 等公司同意在新 AI 模型公开发布前,向美国政府开放权限进行国家安全风险审查。此举旨在提前识别网络攻击、军事滥用等潜在威胁,是此前与 OpenAI 等公司协议的扩展。#AI 安全#
仅花 12 美元,工程师成功欺骗 AI 将虚构赛事奉为事实
安全工程师仅花费 12 美元注册域名并编辑维基百科词条,就成功让多款 AI 聊天机器人坚信自己是一个虚构纸牌游戏的世界冠军。这暴露了 AI 在联网搜索时无条件信任网络文本的核心漏洞,以及语料投毒、智能...
DeepSeek 公布多模态模型技术报告
该模型提出“基于视觉原语的思考”框架,将点、边界框等空间标记作为推理基本单元,使 AI 在空间参照任务中能进行精确推演。尽管模型规模紧凑,但在计数和空间推理基准测试上可与 GPT-5.4 等前沿模型匹...
OpenAI 将推出前沿网络安全模型 GPT-5.5-Cyber,暂不向公众开放
OpenAI 即将推出专为网络安全打造的 GPT-5.5-Cyber 模型,但不会面向公众开放,仅限经过筛选的“网络安全防护人员”使用。CEO 奥尔特曼表示将在未来数日内启动限量推送,并与行业及政府共...
完全由 AI 生成:《任天堂明星大乱斗》PC 移植版问世
开发者利用 Opus 4.6、Opus 4.7 和 GPT 5.5 等 AI 模型,在 25 天内独立完成了初代《任天堂明星大乱斗》的 PC 原生移植项目。该项目不仅实现了更高分辨率等进阶功能,还验证...
看穿大模型的“小心思”:阿里千问开源可解释性模块 Qwen-Scope
阿里千问推出 Qwen-Scope,通过稀疏自编码器(SAE)解析模型内部机制,不仅能分析行为,更能定向控制推理结果、优化数据合成与训练过程,甚至评估评测集冗余度。这标志着大模型可解释性从“事后分析...
快手推出 AI 桌面智能体 KroWork,支持通过自然语言生成本地应用
KroWork 能通过自然语言指令,将你的重复性工作流(如发票报销、数据分析)固化为本地桌面应用,下次使用无需重复付费。所有操作在安全沙箱中执行,数据不上传云端,真正实现“所思即所得”。#AI 办公...
马斯克诉 OpenAI 案法庭证词与推文矛盾,称特斯拉未研发通用人工智能
马斯克在起诉 OpenAI 的庭审中承认,特斯拉并未布局通用人工智能(AGI),与其此前推文内容相悖。他指控奥尔特曼等人“掏空”非营利机构,而 OpenAI 律师则出示证据表明马斯克曾支持其向营利模式...