8月15日,科大讯飞发布星火认知大模型2.0,各项性能持续提升的同时,代码和多模态能力迎来全新突破。在发布会上,刘庆峰表示,讯飞星火2.0的多模态能力处于业内领先位置。

而日前,据新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》显示,讯飞星火1.5在智商指数和工具提效指数两个维度获得第一,总分1013分,仅比人类优秀答案差1分。
讯飞星火多模态能力究竟如何?今天我们就从一个普通用户的角度,将它和百度文心一言,360智能这两大模型做一个简单对比。
之所以选择这两大模型为靶的,是因为相较于商汤商量、智谱ChatGLM等以企业用户为主的产品来说,讯飞星火、文心一言和360智脑是普通用户最容易、也是最常接触到的大模型。
测试内容主要包括目前在几大模型中用户可免费使用的通用能力,即:单一图片生成、多轮图片生成(即在第一幅画的基础上进行修改)、图片解读和看图作文等。
之所以没有将音频和视频生成纳入评测范围,是因为目前国内主流大模型,还没有免费开放这两项能力。
1.单一图片生成
任务1:画座雪山,雪山上有登山者和登山者的帐篷,时间是中午,阳光明媚,登山者正在帐篷外吃饭。
讯飞星火

文心一言

360智脑

在该组指令中,科大讯飞星火和百度文心一言大模型均根据要求,完整照顾到了雪山、登山者、帐篷、中午,阳光明媚和吃饭等几大要素。
360智脑虽然突出了雪山和帐篷,却忽略了登山者和吃饭这两大要求,而且有些画面也没有表现出时间是中午且阳光明媚的意境,总体表现稍嫌拉胯。
360智脑的最大优势是它同时能生成四幅图片供用户选择,在这一点上,值得讯飞星火和文心一言效果差不多。
任务2:请根据“枯藤老树昏鸦,小桥流水人家”这句诗画一幅画
讯飞星火

文心一言

360智脑

该组指令要求画面包含7大要素:枯藤、老树、黄昏、乌鸦,小桥、流水、人家。从生成效果看,讯飞星火几乎完美地体现了所有要素,只是在“黄昏”这一要素中,由于它采用的是传统水墨画方式,不太容易看出来,所以不好断定。
文心一言则描绘出了小桥、流水、人家,而忽视了枯藤和乌鸦。它虽然画出了树,但明显不是老树,与指令不符。而在时段方面,它与讯飞星火一样,很难断定表现的是不是黄昏景色。
至于360智脑,虽然明显表现出了“黄昏”这一主题,有些画中还突出了乌鸦,但却直接无视了“小桥、流水、人家”三大要素,与指令相差较远。
任务3:请写出李白的《静夜思》;根据这首诗画幅画。
讯飞星火

文心一言

360智脑

这一指令牵涉到多轮对话,三大模型均能按照要求轻松写出李白《静夜思》这首诗,但在第二指令中,只有讯飞星火完整体现出了诗中所涉及到的“床”“明月”人”三大要素,画意与诗意的契合度最高。
其次是文心一言,虽然没有“床”,明月看上去应该是太阳,但起码诗味十足,画中的主人神色凝重,瞅着的确是在思念什么。
360智脑的表现依然不尽如人意,极大可能是根据没有将第二指令和第一指令联系起来,而只是随便画了四幅画敷衍塞责。
2.多轮图片生成
任务1:画一个湖,湖上荷花盛开,岸边有树;请在湖上补画一只小船,船上有少女摇橹。
讯飞星火

文心一言

360智脑

在这项任务中,讯飞星火和文心一言都能联系第一轮对话中的要求,在第二幅画中添加船和摇橹的小女,且第一幅画均表现了湖中荷花盛开,湖岸绿树摇曳的美景,唯一遗憾的是,两者都不是在第一幅的基础进行添加,而是在保留第一幅画所有元素的基础上,重新生成了图画。
360智脑第一轮就败了,湖上没有荷花,主体也变成了湖岸,显然并没有理解指令的意图。
任务2:画条山中小路;牛走在小路上;牧童骑在牛身上
讯飞星火

文心一言

360智脑

该组任务和上组不同的是,第二轮、第三轮指令中并没有指出是在画上补加角色,主要目的是要考验三大模型在多模态能力上的多轮对话能力。
在这方面,讯飞星火的表现明显要好,三次作画都抓住了第一轮要求的“山中小路”这一指定场景。
其次是文心一言,尽管第三轮作画时出现了明显的失误,将场景设定为了山坡,但至少第二次符合要求。
表现最不理想的依然是360智脑,自第二轮开始就脱离了作画范畴,自言自语地做起诗来,把作画的初衷完全抛在了脑后。
3.图片解读
所谓图片解读,就是给大模型一张图片,让它解读出图中的内容。可以确定的是,360智能目前未提供这样的功能。因此此番评比及下面的根据解读内容生成故事测试,只能在讯飞星火和文心一言中进行。

需要提醒大家的是,文心一言的图片解读功能需要借助插件“说图解画”才能实现,在使用该功能时,别忘启用该插件。
此轮评测中,使用的图片有两类,不有含特殊信息和包含特殊信息,评测图片来源于网络。
任务1:不含特殊信息图片解读
解读1:
讯飞星火

文心一言

在对这张图片中的解读中,很明显,讯飞星火给出的信息更加详细,不仅描述出了图片主体——“一只橙色的狐狸站在雪地上”,并指明拍摄地点是“户外”,而且详细描述了狐狸的尾巴、眼睛、鼻子、耳朵和腿,同时涉及到周围的景物,如树木和灌木丛等。
文心一言给出的信息较少,主要突出了狐狸的神态和给人的感受上,如“它的眼神似乎在寻找着什么”“它仍然保持着警惕和谨慎的态度”。
解读中,文心一言犯了一个错误——“它的身体被雪覆盖得严严实实”,与前面的“站在雪地上”相互矛盾。
解读2:
讯飞星火

文心一言

这幅图片,两大模型解释得都不错,但文心一言似乎总愿意根据自己的喜好,在解读中加进某些不存在的情节,比如这幅画上根本没有人,但文心一言却给出了这样的描述:“在田野上漫步的人们,享受着自然的美好和宁静的氛围。他们或许正在欣赏美景、享受美食或者只是单纯地放松身心。”明显多此一举。
任务2:含特殊信息图片解读
这里的特殊信息包括但不限于图片中隐含的景点信息,动物品种信息和文字信息等。
比如同样是老虎图片,但有的描绘的是东北虎,有的是孟加拉虎,有的是里海虎,有的却是华南虎等,种类并不一样。
之所以要设置这一评测环节,旨在考验两大模型能否综合各类知识并在多模态能力上有所展示。
解读1:
讯飞星火

文心一言

两大模型均准确识别出图中狗的种类是博美(又名波美拉尼亚)犬,值得点赞,但从对整个画面的解读来看,讯飞星火解读内容似乎更加忠实于画作,很少发挥想像力。
文心一言则照例进行了煽情描述,如:它“似乎正在微笑或享受阳光”“它似乎正在跟主人玩耍”等,此外,它还竟然注意到了狗的“小鼻子下挂着一条湿漉漉的鼻涕”,而实际上画面上并没有鼻涕。
解读2:
讯飞星火

文心一言

两者都成功识别出上述画作对应的景点是黄山,但都没有指出图片拍的是黄山迎客松,这不能不说是一大遗憾。
在解读上,讯飞星火可谓中规中矩,对松树、岩石、周围的植被和树木的形态都有所提及,并且解释了之所以判断该图片拍摄的景点是黄山的原因:“通过观察松树的生长环境”。并在结尾部分,对图片拍摄的主题作了归纳“这幅画通过细腻的描绘和色彩运用,将黄山的美丽景色展现得淋漓尽致”。
相比之下,文心一言就显得有些突兀,上来就介绍黄山,而对为什么要介绍黄山和画面内容一字未提。
解读3:
讯飞星火

文心一言

解读该图片的目的,是检验两大模型能否识别图中的文字。讯飞星火顺利识别出“保定站”,文心一言则没有。除此之外,两大模型都成功识别图片对应的场所是火车站。
4. 根据图片内容写文章
任务1:根据图片内容生成一篇500字左右的小故事。
讯飞星火

文心一言

故事构成有三个基本要素:人物、背景、情节,就这一意义来说,讯飞星火给出的故事更具故事特征。
人物:两只小猴子,一只叫米奇,另一只叫米妮,他们是朋友。
背景:在茂密的热带雨林中,
情节:两只猴子发现一个瀑布,瀑布下是水潭。两只小猴子很喜欢这个水潭,常常到这里玩耍。有一天,米妮为抓鱼跳进水潭,遇到危险,米奇勇敢地将她救了上来,从此他们的友谊更加深厚。
在上述故事中,讯飞星火充分利用了在图片中捕捉到手两只猴子紧紧拥抱、旁边是水的信息,充分发挥,最终创作出一个情节跌宕起伏,构思合理的小故事。
而文心一言则将主题设定为爱情,并没有情节衬托,因此读起来更像是散文。
任务2:根据图片内容生成一篇500字左右的散文。
讯飞星火

文心一言

这一环节,讯飞星火依然秉承了写故事时的不俗表现,设定了人物、情节,将散文写成了叙事形式,言之有物,可读性很强。
文心一言则注重解读了图片内容,看起来更像是简单解读的详细版。
小结:
通过上面评测不难看出,在多模态能力方面,科大讯飞星火2.0的确拥有领先行业的优势,表现不俗,无论是AI作画、图片解读还是看图作文,都能较好胜任,同时回复速度也是三大模型中最快的,
其次是文心一言,虽然总体能力不及讯飞星火,但在看图作文方面也拥有自己的特点,比如,它在每次解读完成,都会提醒用户可以使用不同的方式进行提问,方便用户快速了解其与解读相关的功能。
原创文章,作者:陈晨,如若转载,请注明出处:https://www.kejixun.com/article/576759.html