AI Studio 初体验:Gemini 2.5 Pro 的强大功能
首先,我们来到 AI Studio 页面,选择左侧的 “Chat” 模式,然后在右侧的 AI 模型中选择 “Gemini Pro 2.5 Preview”。这个模型在 5 月 6 日发布,非常新。
AI Studio 的 “System Instructions”(系统指令) 功能非常实用,你可以在这里写入希望 AI 在整个对话中遵循的事项,比如让它全程使用繁体中文回答问题,这样就省去了每次提问都要重复提醒的麻烦。此外,当你得到满意的答案时,可以点击小图示将对话保存下来,方便日后在左侧的 “History” 中查找,否则关闭 AI Studio 后对话内容就会消失。
轻松搞定复杂会议:YouTube 视频转录与摘要
我找到了一段长达 27 分钟的 YouTube 视频,记录了一场关于精神健康医学研讨会的会后座谈及问答环节。Gemini 2.5 Pro 允许你直接粘贴 YouTube 链接,非常方便!当然,你也可以选择直接上传电脑中的视频或录音档案。
这段视频是多人对谈,且全程以英文进行,这正是测试 Gemini AI 在复杂情境下的语音识别能力、英文即时翻译成中文的准确度以及分辨不同发言人能力的好机会。对于我们日常工作中,例如重要的跨国会议、多人访谈等需要转录逐字稿的场景,这些功能都至关重要。
粘贴视频链接后,AI 会进行分析。在右侧的 “Run Settings”(执行设定) 中,可以看到这个模型可以处理的长度上限大约是 100 万个 token,而我们这段 27 分钟的视频档案长度大约是 48 万个 token,这表明 Gemini 2.5 Pro 的处理容量非常大。如果你上传的是声音档案,可以处理的长度还会更长。
接下来,这一步非常关键——我们要给 Gemini 下达指令。我要求它将这段视频转录成繁体中文逐字稿,并加上 “时间戳记” 和标示出讲者的名字。最后,再请它用 “第一人称” 的角度整理出一个 “重点摘要”。明确的指令有助于 AI 更精准地完成任务。
智能处理过程与惊艳成果
按下 “执行” 后,屏幕下方会显示 Gemini 的思考过程,例如“进行发言人识别”、“确定发言人角色”、“专注于问答摘要”等。这让我们能稍微一窥 AI 的运作流程:它会先识别视频中不同的发言人,然后具体分析发言内容、进行逐字稿的转录,最后才是摘要的撰写。
结果出来了!令人惊喜的是,一开始 Gemini 还先显示了视频开头的幻灯片内容。这代表它不仅听懂了声音,连影像里面的文字都能正确识别!你可以暂停视频,对照一下 Gemini 识别的文字内容是否与会议的幻灯片内容一致。它甚至还提到画面右上角有视频画面,有多人在台上,这就是 多模态理解能力 的展现。
接着,就是 Gemini 生成的非常详细的繁体中文逐字稿,每一段都有精确的时间戳记,也清楚标示了说话人的名字。我们随机挑选一段内容,看看它翻译得是否通顺自然:
当 AI 不知道发问人的名字时,它会聪明地将其注明为 “Unidentified Male Questioner”(不知名的男性发问者)。他问道:“这是个有点偶然的问题,但是否应该将精神评估作为竞选公职的必要条件?或许这样可以为世界省下很多麻烦。” 然后 Dr. Philip 回应:“作为美国联邦政府的雇员,我绝对不会碰这个问题。” 接着主持人 Leanne Williams 说:“或许我可以问一个问题,这个问题不在我的清单上,但我对 Dr. Tozzi 的简报中,Dr. Williams 展示的一张幻灯片非常感兴趣。那张幻灯片提到 5200 个认知测试。我想知道您是否可以详细说明那些测试具体是什么类型以及它们的来源,那相当令人印象深刻。”
你看,翻译得非常通顺、口语化,完全就像是真人在对话一样!而且,它将每位讲话的人都用名字区分开来,连不知名的发问观众也标示了性别,还注明了哪一位是主持人。这种细节处理对于后续整理会议记录来说,真的省下了很多功夫。AI 是不是越来越聪明、也越来越贴心了?你还可以点击 “Copy Text” 将逐字稿复制下来存档,非常方便。
再往下看,这就是 Gemini 帮我撰写的 “第一人称”重点整理。因为我事先有这样的要求,所以它的语气就像是我亲身参与了这场会议一样。开头提到了:“我参与了一场关于精准精神医学、个人化神经科学以及心理健康治疗未来的研讨会问答环节。” 它还点出了几位讲者的发言重点,像是 Dr. Philip 谈到的 TMS 治疗 PTSD 的目标脑区、Kaplan 先生提到的运动优势研究、Walter 提到的行为测量方法(例如 EMA 和 Mindstrong),以及 Dr. Tozzi 关于多达 5200 个认知测验的内容等等。摘要的质量非常高,也完整地抓到了所有重点!
试想一下,如果你的老板派你去参加一场冗长又重要的会议,回来要你交报告,你只要把视频或录音档案上传,Gemini 就可以在短时间内帮你转成逐字稿,并且做成一份重点摘要。当然,AI 是辅助工具,记得一定要自己看过一遍,确认内容的准确性,理解过后,再稍微修改成自己的语气和观点,一份高质量的会议报告就可以轻松完成了!
更多惊喜:Stream 模式与自然语音合成
还没完!我还要展示另一个更厉害的功能,就是 Stream(串流)模式。这让我们可以直接跟 AI 对话。我们现在要让它朗读文字。
首先,把刚才的重点摘要复制下来,进入 Stream 页面后,在右侧的设定这里选择 “Gemini 2.0 Flash” 这个模型,输出格式选择 “Audio & Text”(声音与文字)。你还可以选择 AI 的声音,我选择了“Aoede”(她是希腊神话中一位掌管歌咏的缪斯女神的名字),听起来是不是很有诗意?然后语言选择中文。
接着,输入提示词,请 Gemini 用自然的语气把这段摘要读出来,并粘贴我们刚才从聊天模式那边复制好的第一人称摘要。你也可以用档案的方式附上来,对话框会比较简洁一点。按下 “执行”。
听到了吗?声音听起来非常自然,顿点和语气也处理得不错。我注意到它把 doctor 的缩写念成了 drive,显然在中文里混入英文发音还有点小问题,不过这很容易解决,以后它一定也会再改进。所以你看,你可以用这个 AI 朗读功能,把一段文章、报告,甚至小说念出来,然后可以从这里把声音档案下载下来,轻松做成 Podcast 或有声书。像我这种有阅读困难的人,就喜欢用听的,是不是非常方便呢?
总结:Gemini 2.5 Pro 的卓越能力
今天我们在 AI Studio 里看到的 Gemini 2.5 Pro 的能力总结如下:
- 多模态输入:Gemini 可以处理视频(影像+声音)或纯音频。
- 强大的语音转文字与翻译:能准确识别多人英文对谈,翻译成流畅的繁体中文,并区分发言者。
- 影像内容理解:连视频中的幻灯片文字都能识别。
- 高质量摘要能力:能依照指示(如第一人称)产出精炼的重点摘要。
- 高容量处理:Gemini 2.5 Pro 的记忆力可以处理长达一百万个 Token 的档案,大约等于 80 万个中文字或是 75 万个英文单词,相当于一本 1000 页的英文小说内容。
- 自然语音合成:Stream 串流模式能用自然的人声朗读文字。
这些转录功能以及摘要功能对于制作会议记录、访谈稿、课程笔记,或是将影音内容再利用转成博客文章、podcast 等都非常实用。如果你还想到其他应用,别忘了留言让大家知道。
这项直接处理影音档案并进行深度分析的功能,确实是目前 Gemini 的一大优势。像 ChatGPT 目前如果没有特定外挂,是无法直接做到视频的多模态分析和摘要的。这也意味着 Gemini 有潜力可以整合并取代一些过去我们可能需要分别订阅的付费工具,像是 Descript 或其他的 AI 转录服务。
更重要的是,Gemini 的语音相关能力在过去几个月中进步神速,已经可以用中文发音了。大家可以感受到,即使在中文发音里混用英文还有小瑕疵,但整体而言,现在的语音听起来比几个月前更自然了。这代表 Google 在这方面的技术持续在进化。
如果本期内容对你有帮助,记得点赞分享给你的朋友们,顺便订阅本频道,就可以第一时间看到更多最先进的 AI 生活应用。我们下期再见!