‌小米大模型团队音频推理登顶MMAU榜

‌小米大模型团队音频推理登顶MMAU榜

近日,小米大模型团队在音频推理领域取得重大突破,成功登顶国际权威的MMAU(Masive Multi-Task Audio Understanding and Reasoning)音频理解评测榜首。这一成就得益于团队将强化学习算法应用于多模态音频理解任务,仅用一周时间便实现了64.5%的SOTA(State Of The Art)准确率。

据悉,MMAU评测集通过一万条涵盖语音、环境声和音乐的音频样本,测试模型在27种技能上的表现,期望模型达到接近人类专家的逻辑分析水平。此前,表现最好的模型来自OpenAI的GPT-4o,准确率为57.3%。小米团队受DeepSeek-R1启发,将GRPO算法迁移到Qwen2-Audio-7B模型上,在仅使用3.8万条训练样本的情况下,实现了显著的性能提升。

此次实验不仅验证了强化学习在音频推理领域的独特价值,也为后续研究提供了新的思路。小米团队表示,将把训练代码、模型参数开源,并提供技术报告,供学术界和产业界参考交流。这一成果标志着小米在人工智能领域的技术实力不断提升,也为智能听觉时代的发展注入了新的活力。

原创文章,作者:XIAOMI,如若转载,请注明出处:https://www.kejixun.com/article/710539.html

XIAOMI的头像XIAOMI认证作者

相关推荐

发表回复

登录后才能评论