
这次更新好用的AI功能有很多,AI搜问里还接入了Qwen Plus和Max,DeepSeek,豆包,Kimi,连GPT-4o和Gemini 2.5 Pro两个上古真神都有,一篇文章也写不完。所以,我还是想从一个更真实的,甚至和工作毫无关系的场景说起。我想聊聊这次我去马来西亚亚庇三天旅行中,高频率用到的一个功能,
AI听记。亚庇这个地方很有意思,一个不大的城市里(基本走路市中心就走完了),生活着马来人、华人、菲律宾人,还有当地的原住民。所以一天聊下来,你会同时听到英文、普通话、粤语,甚至还有一些马来语。面对多元的语言环境的挑战,十月份在西班牙我尝试用deepseek做菜单翻译,这次我跟口袋里的钉钉一起挑战。面对面实时翻译。

左边导游讲解实时转录,右边是跟导游聊天因为有了实时翻译的第一感觉这次花钱请的本地导游值了,这个翻译是可以实时合成音频的。我用的是当地Orange的电话卡,实测下来,中英互译加上语音合成,几乎感觉不到延迟。无论是跟小贩砍价买榴莲(强推黑刺和猫山王),还是在餐厅里磕磕巴巴地点菜,甚至是在爬山去看大王花的路上和向导闲聊,我都可以开着这个实时翻译。这彻底改变了我的旅行体验。之前去泰国旅游,因为语言不通,我和当地导游几乎是零交流,他负责带路,我负责看景拍照片。但这次,因为有了AI当免费的翻译官,我能了解到,亚庇原来是马来西亚消费第二高的城市,我们之所以在7-11和Orange便利店里找不到什么本地零食,是因为这里的物品基本都从吉隆坡进口,而亚庇又是离吉隆坡最远的城市。我还知道,这里的手机市场,几乎被华为、vivo和OPPO瓜分了,连苹果都很少见。

这些琐碎但生动的信息,是以往任何旅行攻略里都不会告诉我的。它们像一块块拼图,让我对这个陌生的地方,有了一种更融入当地的理解。旅途中还有一个痛点,长时间坐车晕车,或者周围环境超级吵比方说在船上的时候,我又不想错过导游的介绍。这时候,AI听记的图文纪要就会直接生成类似信息图的摘要,我可以不二次重听音频,直接看图文就能get到重点。甚至在录音的同时,我还可以随时拍下眼前的画面,比方说我这里就是一个好看的路牌,这些图片会作为笔记的一部分被保存下来。

这两天在旅游担心错过发布会啥的,所以我中途还挂着AI听记来看大牛们推荐的2025AI工具合集,这时候AI听记的声纹识别就有更好的用法了。

通常情况下,如果我一边播放视频,一边录音,那么AI会认为视频里所有人说的话,都是我说的。但在开启声纹识别后,它能清晰地区分出我的声音和来自播放设备的声音。这样,我就可以一边听会,一边随时插入我自己的评论和思考。比如听到某个工具,我可以立刻说,这个软件我自己用下来有不一样的看法。这种记录方式,远比单纯转录一遍视频,或者回头再整理笔记,要高效很多。

还有一个更有意思的玩法。AI听记可以边拍视频边转成纪要,也可以直接导入相册里的视频。我在KAVA坐船去看长鼻猴的时候,就彻底放飞了自我。那个猴子太难拍到了,隔着几十米,我光顾着录像,完全没听到导游在说什么,也不需要额外拿个麦克风或者录音设备啥的,就等船开往下一个地点的时候,我地把刚刚录的视频导入到AI听记里。这样我照样可以不漏掉信息。

我要再一次吐槽,要是我之前去西班牙的时候有这个功能,我就可以光明正大地蹭隔壁英国旅行团的导游了,也不至于在普拉多博物馆逛了一圈,只记住了毕加索的《格尔尼卡》。类似的窘境还有之前在上海看埃及展,我在馆里租的讲解器,竟然不包含特展里的展品介绍,当时就特别希望可以边看边拍边记。

人太多了拍不到正面(哭当然,随着使用次数的增多,我的听记库里堆积了大量的音频和视频记录。这时,钉钉的AI搜问能力就无缝衔接了进来。我可以选择多个录音或者视频作为信息源,然后直接向它提问。比如,把我在亚庇的所有记录都选上,然后问它,我这次旅行中,长鼻猴的特征有哪些?

这个功能,让AI听记从一个单纯的会议记录工具,升级成了一个个人知识库。所有的声音、图像和我的思考,都变成了可搜索提问,可以被AI重新组织和理解的素材。听记里针对不同场景,内置了大量的模板,根据你的身份推荐不同的AI总结模版。

这次旅行回来,我除了airdrop照片之外,还开始把听记的链接分享给一起旅游的朋友们了,这时候他们就会有种陌生的熟悉感。这还是我们已经习惯了的钉钉吗?它不再是一个代表着工作的蓝色图标。它真的有在努力变成我们跟其他Agent交互的平台。从这个角度看的话,我有点理解钉钉为何如此激进地加码AI了。它不缺用户,不缺场景,只缺一个Agent OS,把琐碎的日常串联起来,把重要的信息推到我们面前,这,就是钉钉的1.1版本,我不需要刻意去学习,去想它的使用场景,就是像普通的天天都在用的App一样平常心打开它,它就可以帮我再分配我的注意力和时间,把一些我早就习惯了半放弃的痛点,一点一点划掉了。
@ 作者 / 卡尔
