
谷歌发言人亚历克斯·约瑟夫今日向媒体证实,Gemini Live人工智能实时视频解析功能已正式上线。用户可通过智能手机摄像头或屏幕画面与AI互动,Gemini将实时分析视觉内容并解答相关问题。该功能基于2024年5月发布的Project Astra多模态项目开发,被视为对标OpenAI GPT-4o的重要落地成果。
据官方描述,用户开启手机摄像头后,Gemini Live可即时识别画面中的物体并解释其功能。例如对准咖啡机时,AI能指导操作步骤;扫描电器故障部件时,可提供维修建议。该功能支持在Pixel系列手机本地运行,强调低延迟与隐私保护,首批功能已向部分用户开放测试。
谷歌曾在2024年I/O大会上演示Project Astra原型:用手机扫描办公室环境,AI准确识别电脑型号、提醒日程安排,并推算白板上的公式结果。此次Gemini Live的上线标志着该项目从技术展示转为实际应用,其多模态能力整合了图像识别、语音交互与实时数据分析。
目前Gemini Live暂未开放自由对话时长限制,重点聚焦特定场景的视觉问答。谷歌表示正在优化复杂环境下的识别准确率,例如区分外观相似的工业零件、解读手写潦草文字等挑战。未来该功能将逐步扩展到更多安卓设备,并接入谷歌搜索数据库强化知识储备。
值得注意的是,Gemini Live的推出恰逢多模态AI竞争白热化阶段。OpenAI上月发布的GPT-4o同样支持实时视觉交互,但尚未开放公众测试。随着两大巨头在“可感知现实世界的AI助手”赛道加速布局,消费级智能终端或将迎来新一轮升级潮。
原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.com/article/712015.html