Google Gemini 1.5 Pro推出公共预览版 它可以听到声音

Google Gemini 1.5 Pro推出公共预览版 它可以听到声音

在最近的Google Next活动中,谷歌宣布了对其人工智能模型Gemini 1.5 Pro的重大更新,这一更新为模型带来了前所未有的听觉能力。Gemini 1.5 Pro现在能够处理和理解上传的音频文件,这意味着它可以直接从财报电话会议或视频音频中提取信息,而无需依赖书面文字记录。

此次更新的亮点是,Gemini 1.5 Pro在性能上已经超越了Gemini家族中最大最强的机型Gemini Ultra。谷歌声称,Gemini 1.5 Pro能够理解复杂的指令,而无需对模型进行微调,这标志着AI技术的一个重要进步。

然而,值得注意的是,Gemini 1.5 Pro的使用受限于能够访问Vertex AI和AI Studio的用户。目前,大多数人通过Gemini聊天机器人接触到Gemini语言模型,而Gemini Ultra则为Gemini Advanced聊天机器人提供动力。尽管Gemini Ultra功能强大,但在速度上不及Gemini 1.5 Pro。

除了Gemini 1.5 Pro,谷歌的另一大型AI模型Imagen 2也获得了更新。Imagen 2是一种文本到图像生成模型,它不仅增强了Gemini的图像生成能力,还新增了图像编辑功能,允许用户在图像中添加或删除元素。此外,谷歌还为通过Imagen模型创建的所有图片提供了SynthID数字水印功能,该功能在图像上添加了一个对观看者不可见的水印,以标记图像的来源。

谷歌还公开预览了一种新方法,将其人工智能响应与谷歌搜索结合起来,以便用最新的信息进行回答。这一举措意味着,即使是大型语言模型也能提供最新的信息,而不仅仅是基于内部数据的回答。值得一提的是,谷歌有意不让Gemini回答与2024年美国大选相关的问题,这表明了对信息敏感性的考量。

Gemini因生成与历史人物不准确的照片而受到批评,这一事件提醒我们,尽管人工智能技术取得了巨大进步,但仍需谨慎处理与历史和现实世界相关的数据。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.com/article/645533.html

(3)
AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论