
谷歌在2025年I/O开发者大会上正式推出全新文生图AI模型Imagen 4,其生成速度较前代提升10倍,并显著优化了图像细节与文字渲染能力。官方演示显示,新模型生成的图像在毛发、金属光泽等材质表现上更为逼真,AI合成痕迹大幅减少,例如一张“2025谷歌I/O大会”主题海报中,文字与背景元素的融合自然流畅,展现了多图层排版的设计能力。
此次升级的核心亮点在于对文本嵌入图像的精准控制。Imagen 4不仅能将文字作为独立元素插入场景,还可根据语义调整字体风格与光影适配,如沙漠场景中的立体标语、霓虹灯牌上的渐变字符等复杂效果均能实现。这标志着AI文生图技术从“可读性呈现”迈向“设计级应用”,为广告、影视等行业提供高效工具。
与此同时,谷歌同步发布了视频生成模型Vevo 3,该模型首次集成环境音效合成功能,可根据画面内容自动生成鸟鸣、车流声乃至人物对话,打造沉浸式视听体验。目前Vevo 3已面向美国地区的Gemini Ultra用户及Vertex AI企业客户开放测试。
值得注意的是,Imagen 4的性能提升并非依赖硬件堆砌,而是通过算法架构优化实现。其分布式推理引擎将单次生成耗时压缩至秒级,配合动态分辨率调节功能,用户可在1024×1024像素的高清输出与实时预览模式间灵活切换。随着多模态生成技术进入商业化深水区,谷歌正通过软硬协同的策略巩固其AI生态优势。
原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.com/article/720034.html