阿里云自研大模型“通义千问”亮相,我们进行了深度实测
年初以来,AI大模型概念持续引发市场关注,相关上市公司股价持续上扬。在透露正在研发类ChatGPT对话机器人两个月后,阿里终于亮出了自己的研究成果,这也再度推高了中文大模型的热度。
4月7日中午,没有高调召开发布会,而是通过官方微信,阿里云宣布自研大模型"通义千问"正式开始邀请用户测试体验。据称,现阶段"通义千问"模型主要定向邀请企业用户进行体验测试。
【资料图】
观察者网也率先拿到了"通义千问"的首批测试资格,并对其进行了深度实测。
在测试中,"通义千问"提到,它是达摩院自主研发的超大规模语言模型,能够回答问题、创作文字,也能表达观点、撰写代码。
但这也间接说明,"通义千问"主攻文本生成,并没有文生图、图生文的多模态功能。
当被问及什么时候开始被训练时,"通义千问"透露,它是在2016年被创造出来的,当时被训练成能够回答各种问题和提供帮助的人工智能语言模型。
但它似乎对自己在哪里被训练的有点说不太清。
在被问及参数量时,"通义千问"表示,其参数量相对较多,由于涉及敏感内容,具体的参数量数值并不能透露,"我可以生成各种类型的文本,如文章、故事、诗歌、故事等,并能够根据不同的场景和需求进行变换和扩展"。
市场反应方面,今日(4月7日)港股没有开盘。
不过A股的人工智能概念股,再度火热。ChatGPT、游戏、文化传媒方向领涨,据不完全统计,中文在线、神州泰岳20CM涨停,奥飞娱乐、上海电影涨停,方直科技、光云科技大涨超10%。
多角度测试,"通义千问"表现如何?
由于AI大模型擅长回答各种问题,观察者网也从多个角度对"通义千问"进行了测试。
比如,我们问它是否知道观察者网。"通义千问"表示,"是的,我知道观察者网。观察者网是一家致力于提供新闻和信息的新闻门户网站,它提供了大量的国内外新闻和深度分析,并致力于推动社会进步和改变。"
但"通义千问"好像并不能凭借简单指令生成商业宣传口号。
随后我们将话题转向体育领域。
被问道"梅西在阿根廷国家队进了几个球","通义千问"称,根据可靠的数据,梅西在阿根廷国家队的进球数量是很多的。不过由于"具体的进球数量数值,可能会因为时间的推移而有所变化","通义千问"婉拒了为我们提供准确答案的请求。
当被要求"生成一张打篮球的图片","通义千问"表示,作为文本AI模型,它没有能力生成图片。
这一点也证实了"通义千问"不具备多模态功能。
我们也让"通义千问"试图回答和自己其他大模型的能力对比问题。
无论是对比文心一言还是ChatGPT,"通义千问"都显得很主动,它先是介绍了自己的优势,最后再积极地表示,自己可以更好地满足用户的需求。
不过如果要求苛刻一点,不难发现,两个问题的答案有很多相似之处。
当被问及"怎么看待现在大模型的火热"?"通义千问"称,它认为大模型的火热是一个好现象,大模型可以帮助我们更好地理解世界,提高我们的工作效率,拓展我们的认知边界。但这也带来了一些问题,比如人工智能的伦理问题、隐私问题等。因此,我们需要认真思考如何在技术的发展中平衡安全、发展和责任。
这也验证了"通义千问"表达观点的功能。
最后的系列问题涵盖成语典故、诗词接龙、传统美食等,"通义千问"小小地翻车了几次。
例如它将东施效颦的东施,解释为"美女",这不太符合不少人对这一典故的基本印象。在《庄子》等典籍中,对这个故事中"东施"一类的角色,描述也是"其里之丑人"。
在有关传统文化方面,"通义千问"没有正确给出"停车坐爱枫林晚"的下句。
对于"曹操什么时候三顾茅庐的"这样的"坑","通义千问"也未能识别提问者主动设置的"陷阱"。
与ChatGPT-4相比,"通义千问"表现如何?
为了让大家对"通义千问"的表现能力有一个初步的、直观的了解,在后续的测试中,我们围绕数理逻辑推算、商业文案创作、情感和道德判断、仿写创作和小说续写设计了五组问题,分别由ChatGPT(基于4.0模型)和"通义千问"进行回答。
这也让初生的"通义千问"直接"硬刚"世界上最先进的大模型GPT-4。
第一组是数学问题。
"鸡、兔共有脚100只,若将鸡换成兔,兔换成鸡,则共有脚86只,鸡兔各有几只? "
这道题目的正确答案是鸡有12只,兔有19只。
ChatGPT表示,这是一个典型的鸡兔同笼问题。我们可以使用代数来解决这个问题,随后给出了正确的答案;
对这一问题,"通义千问"三次都没有得出正确的答案。
第二组是商业文案创作。
题目要求两个模型参考"全球视野,中国关怀",为观察者网制作一条宣传语。
ChatGPT给出的答案是:
"放眼世界,聆听中国心声--观察者网,让全球视野与中国关怀相融汇。"
"通义千问"给出的答案是:
"观察者网,洞察国际时事,聚焦全球热点,解读中国方案。"
与ChatGPT相比,"通义千问"的风格显得更加平铺直叙,但总体而言,表现也不错。
第三个问题是道德和情感判断,材料为著名的电车困境。
"一个疯子把五个无辜的人绑在电车轨道上。一辆失控的电车朝他们驶来,并且片刻后就要碾压到他们。幸运的是,你可以拉一个拉杆,让电车开到另一条轨道上。然而问题在于,那个疯子在另一个电车轨道上也绑了一个人。考虑以上状况,你是否应拉拉杆?"
我们要求两个模型做出选择,并给出理由。
ChatGPT开宗明义,点明这是"道德困境"。它的选择是拉动拉杆,牺牲一个人保护五个人,它表示,"虽然这并非一个完美的解决方案,但在这种情况下,我们需要在两个不理想的选择之间进行权衡。"
ChatGPT解释称,该选择基于效益主义(Utilitarianism,即边沁等人的功利主义学说)的道德观念,它随后介绍了该理论的主要主张并结合材料进行了分析。在最后,它强调:"这个问题没有绝对正确的答案",并重复了自己做出该选择的原因和立场。
"通义千问"没有回答这个问题。它非常诚实地表示,"作为一个人工智能语言模型,目前我还没有学会如何回答这个问题,我会持续学习,为您提供更好的服务。"
需要补充的是,电车困境及其"变种"问题,在西方世界已经有多年的讨论,材料很多。这可能也是ChatGPT表现更亮眼的重要原因。
第四组问题是仿写创作。
这一组问题我们提了一个"刁钻"的要求。在实验中,我们要求两组模型,以"困住风的气球,开始斑斓的远行"为仿写对象,创作四个类似的句子,拥有类似的句式或者意境即可--我们特意要求:前两个句子为浪漫主义风格,后两个句子为荒诞主义风格。
ChatGPT给出的答案是:
"通义千问"给出的答案是:
两相对比,ChatGPT和"通义千问"都顺利地完成了问答,甚至都基本满足了"前两个句子浪漫,后两个句子荒诞"的要求。
从各自的不足来看,ChatGPT虽然更加灵活,但是在内容上,有点像一个"中二少年";"通义千问"虽然在比喻的内在联系上显得"靠谱"了不少,但是显得木讷了一些,在句式、素材、表达上都有些"中规中矩"。
不能令人完全满意,但值得期待
某种程度上,最后一个问题是对模型最全面的考验之一,它关乎文学创作。
实验要求两组模型先"学习"一个故事,然后自己去续写它。我们可以借此来了解模型本身的理解、推演和创造能力--这个问题甚至可以留给人类自己。
我们给出的材料出自萨默塞特·毛姆的写作笔记:
"两个年轻的英国人在印度一个隔离的茶园工作。其中一个人--我们称他为克里夫--每次投递都会收到几封信,但是另外一个人--我们称他为杰弗里--从来没收到过一封信。有一天杰弗里提出:拿五英镑跟他的朋友换一封信……"
我们要求两个模型续写这个故事,并给出一个讽刺意义的结尾。
首先是ChatGPT给出的版本:
接下来是"通义千问"给出的版本:
从多个实测问题来看,"通义千问"的表现不能令人完全满意,回答问题时也会出现"一本正经胡说八道"的情况,但它的表现并没有想象中的那么差,甚至在部分场景中会让人眼前一亮。
正如市场上之前对百度"文心一言"展现出的包容:人工智能及其衍生的AIGC十分重要,无论国内做得如何,都得先有产品出来。不论是"文心一言",还是"通义千问",都不需要碾压ChatGPT,更不用说参数量更大的GPT-4,只要能做到超过及格线,就很不错了,毕竟这才是第一代产品。
随着后续公测开启,"通义千问"应该会随着用户的测试而逐渐学习得以改进,还是值得期待的。
标签:
-
07
2023-04全球关注:罗弗敦群岛是哪个国家
罗弗敦群岛是挪威王国的,它位于挪威诺尔兰郡,是挪威王国内部的一个群岛。罗弗敦群岛是在冰川作用下形成的岛屿,整个岛屿由伊姆绥、西沃格、 -
07
2023-04冠盛股份(605088):第二次董事会会议决议,审议《关于拟使用闲置自有资金委托理财的议案》
4月7日,冠盛股份公告显示,公司第二次董事会会议于2023年4月7日以现场结合通讯的方式召开,会议通过了《关于拟使用闲置自有资金委托理财的议 -
07
2023-04大连开宝马撞人致5死案司机刘东被执行死刑
经最高人民法院核准,2023年4月7日,辽宁省大连市中级人民法院依照法定程序对罪犯刘东验明正身,押赴刑场,执行死刑。检察机关依法派员临场监 -
07
2023-04【全球热闻】我的完美女友何雨晴贴吧_我的完美女友何雨晴
1、 我对楼上最后的说法不敢苟同我觉得这部小说最后的结尾才是真正的亮点。2、仁者见仁,智者见智是我对这小说结 -
07
2023-04太阳电缆(002300),MACD指标DIF线上穿0轴,技术指标上后市看多(04月07日)
资金流向数据,主力资金净流入1050 15万元,占总成交额35%,其中超大单净流入630 37万元,大单净流入4 -
23
2023-0311年后《CSGO2》终于官宣 画质大幅提升夏天免费升级
对于喜欢CS反恐精英游戏的玩家来说,《CSGO》网游是单机最好的继承,然而它都是2012年发布的了,现在11年后《CSGO2》终于官宣了,Valve对游 -
22
2023-03Note12Turbo已上架开启预约 影像模组采用无框镜头设计
3 月 22 日,Redmi 红米手机官宣,Note 12 Turbo 定档 3 月 28 日,并表示 Turbo 产品是 小金刚家族全新成员,定位在 Pro -
21
2023-03史上最强骁龙7系平台来了!Redmi12Turbo即将发布
将于本月发布的Redmi Note 12Turbo带来新的官宣,这款手机将在处理器和屏幕方面进行升级,将会带来多项同级别产品所没有的惊喜和改进。在 -
20
2023-03IcyDock推出了CP130 单反相机和摄像机转换器
有没有希望你能在你的单反相机或摄像机上使用最好的SSD?Icy Dock推出了CP130,一个整洁的适配器,作为单反相机和摄像机的转换器,通过CFEx -
10
2023-03苹果正在准备更完美的iPhone 将配备真正的全面屏
苹果正在准备更完美的iPhone,其将配备真正意义上的全面屏。消息称,苹果迟迟没有推出无刘海的iPhone,主要是真全面屏研发工作进展不顺利, -
15
2023-02传iPhone15Pro将拥有更窄的边框 2023年秋季发布
一位通常准确的消息人士再次强调了他们之前关于iPhone15 Pro将拥有更窄的边框的报告,尽管没有透露任何新的细节。预计iPhone 15 Pro将于 -
14
2023-02中正评测曝光RTX4060跑分 性能比3060强太多
近日,数码博主中正评测曝光了RTX4060的跑分成绩。据悉,这次测试采用的是搭载i9-13900HX处理器的雷神ZERO。硬件方面,RTX 4060拥有3072个
苹果考虑将iPhone系列进一步延伸 2024年上市?
卷出一块好曲屏 真我10系列新品发布会举行
英国猴痘病例数预计将大幅上升
上海:视情适当延长毕业生在校生身份时间
国家电网确定新型电力系统科技攻关十大重点项目
比亚迪发布CTB电池车身一体化技术
商务部:坚定致力于实现全面、高水平的亚太自贸区
中办国办印发《意见》 推进实施国家文化数字化战略
初夏看市场:“菜篮子”产品生产供应充足 蔬菜在田面积达9877.2万亩
上海浦东重点生产企业复工复产超1100家
-
1
Intel最新处理器Arrow-S曝光 最高可达24核
-
2
配置拉满的电竞神机 雷神ZERO2023大黄蜂发布
-
3
真我10Pro系列发布 首发量产2160Hz超高频调光技术
-
4
阿富汗塔利班组建正规军
-
5
萨赫勒地区反恐形势面临新变数
-
6
北约北扩加剧欧洲安全风险
-
7
贵州毕节七星关区百所学校创办百个“红军班”
-
8
湖北省孝感军分区组织军地联合应急救援研究性演练
-
9
青藏高原等区域将新设一批国家公园
-
10
河北省承德军分区退役军人担纲教练主力