Gemini Live新功能实测上线:手机摄像头秒变AI顾问

Gemini Live新功能实测上线:手机摄像头秒变AI顾问

谷歌发言人亚历克斯·约瑟夫今日向媒体证实,‌Gemini Live人工智能实时视频解析功能已正式上线‌。用户可通过智能手机摄像头或屏幕画面与AI互动,Gemini将实时分析视觉内容并解答相关问题。该功能基于2024年5月发布的‌Project Astra多模态项目‌开发,被视为对标OpenAI GPT-4o的重要落地成果。‌
据官方描述,用户开启手机摄像头后,Gemini Live可即时识别画面中的物体并解释其功能。例如对准咖啡机时,AI能指导操作步骤;扫描电器故障部件时,可提供维修建议。该功能支持在Pixel系列手机本地运行,强调低延迟与隐私保护,首批功能已向部分用户开放测试。‌
谷歌曾在2024年I/O大会上演示Project Astra原型:用手机扫描办公室环境,AI准确识别电脑型号、提醒日程安排,并推算白板上的公式结果。此次Gemini Live的上线标志着该项目从技术展示转为实际应用,其多模态能力整合了图像识别、语音交互与实时数据分析。‌
目前Gemini Live暂未开放自由对话时长限制,重点聚焦特定场景的视觉问答。谷歌表示正在优化复杂环境下的识别准确率,例如区分外观相似的工业零件、解读手写潦草文字等挑战。未来该功能将逐步扩展到更多安卓设备,并接入谷歌搜索数据库强化知识储备。

值得注意的是,Gemini Live的推出恰逢多模态AI竞争白热化阶段。OpenAI上月发布的GPT-4o同样支持实时视觉交互,但尚未开放公众测试。随着两大巨头在“可感知现实世界的AI助手”赛道加速布局,消费级智能终端或将迎来新一轮升级潮。

原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.com/article/712015.html

Google的头像Google认证作者

相关推荐

发表回复

登录后才能评论