当前热议!小羊驼:训练成本仅300美元的斯坦福开源模型,适合创业公司打造自己的AI模型
导语:小羊驼的逻辑叫“知识蒸馏”,即通过将大型模型的知识转移到小型模型中,从而快速达到想要的模型质量,同时减少计算成本。
不久前,斯坦福公开了一个名为 Alpaca 的新模型。(俗称“羊驼”)它使用了 GPT3.5 生成的 52k 个指令训练,训练费用只花了 500 美元,但是性能可以与 GPT-3.5 相媲美。
【资料图】
然而由于使用了 GPT3.5 的指令数据,使用条款禁止开发与 OpenAI 竞争的模型,因此 AIpaca 禁止了商用。
而近日,斯坦福学者与 CMU、UC 伯克利等人合作推出了一个全新的模型——Vicuna,它有 130 亿个参数,俗称“小羊驼”。 初步评估小羊驼其实 Vicuna 说白了就是一款新的“ChatGPT”,它和 Google Bard、ChatGPT 还有 New Bing 都一样,都是聊天机器人(Chatbots)。
初步评估上,Vicuna-13B 达到了 ChatGPT 能力的 92%;几乎要比 Google Bard 更强;同时远远甩开其他模型,如 LLaMA 和它的前辈——斯坦福的 Alpaca。
而训练 Vicuna-13B 的成本是仅仅 300 美元。可能还没有屏幕前的你游戏显卡的价格高。
Vicuna 在推出后面临的一个问题是,自己的模型质量究竟如何。显然作为学术机构没办法像大公司养着几百上千的测试团队进行大量测试,于是他们另辟蹊径——既然人力太贵,那就用刚刚推出的 GPT-4 来评测嘛。
具体操作上,他们提出了一个评估框架。设计了九大主题下共计八十条测试问题,然后把由其他模型和自家 Vicuna 的回答交给 GPT-4 进行评估(“哪个虚拟助理的回答更好”)。
惊人的是在这八十个问题的评估上,Vicuna 已经能微微赢下 Google 重注的 Bard,更是把自己的“祖父模型”LLaMA-13B、AIpaca-13B 杀得片甲不留。
尽管问题的胜出数量上比不过 ChatGPT,但以 10 分制的角度切入,Vicuna 也已经实现了 ChatGPT 超过 90%的质量。
不得不说,“羊驼”AIpaca用 GPT-3.5 生成的指令训练模型,而“小羊驼”Vicuna在此基础上又用 GPT-4 评估模型,斯坦福他们是懂人工智能的。
进入Vicuna主页,不必注册登录;直接输入想要的内容,然后等待Vicuna为你生成。全程一分钟,行云流水丝毫不卡顿。
作为大语言模型,中英文自然是通吃。
“知识蒸馏”ChatGPT 训练费用高企甚至一次训练就要接近上亿美金,然而 Vicuna 只花了 300 美元。从效果上看就达到了 GPT3.5 质量的 90%。这是怎么做到的?
其实Vicuna的逻辑在人工智能领域叫做“知识蒸馏”(knowledge distillation),即通过将大型模型的知识转移到小型模型中,从而快速达到想要的模型质量,同时减少计算成本。
通常,大型模型(即“Teacher”)会生成训练数据,小型模型(即“Student”)则使用这些数据来学习大型模型的知识和能力。
通过这种方式,小型模型可以在自己的场景下获得大型模型90%甚至99%的能力,这意味着,可用于生成模型的领域将呈指数级增长。
在Vicuna公布的训练过程里,一开始,开发团队是从 ShareGPT (与 ChatGPT 对话内容的UGC网站)上收集了七万条对话。这恰恰是“知识蒸馏”里最重要的“训练数据”。
而训练方法上则是选择了在“羊驼”AIpaca(成本已降低至500美元)上优化。
这两个最重要的环节就使得Vicuna同时在训练成本和训练质量上均有突出优势。
而理论上你也可以花300美元租云计算资源然后训练出你的“小羊驼”。 全华人团队一个小插曲是,作者在撰写稿件搜集资料时,看到小羊驼的开发团队不禁虎躯一震。
包括 Wei-Lin Chiang、Zhuohan Li、Zi Lin、Ying Sheng、Zhanghao Wu、Hao Zhang、Lianmin Zheng、Siyuan Zhuang 和 Yonghao Zhuang,这学生团队是清一色的全员华人,不免让人感慨。
总结:遍地AI的世界就在眼前从本质上来说,ChatGPT这种大语言模型就是通过烧钱烧算力烧数据达到"大力出奇迹"的效果。
而这也带来了一个问题,即这样的大语言模型烧钱的程度会让很多小公司望而却步,只能加入霸权垄断的圈子。
而对于像小红书/B站这样不上不下的公司,既承担不起自己训练大模型的成本,也不愿意将自己内容池的数据拱手让人,其实是陷入蛮尴尬的境地。
Vicuna展现了另一种可能性,即通过“知识蒸馏”的方式,以极低的价格复刻大语言模型90%甚至99%的能力。
而这就意味着哪怕是刚刚创业的小公司也完全负担得起一个独属于自己体系的AI的训练成本。
换句话说,ChatGPT拉开了AI落地的序幕,而Vicuna告诉我们,遍地AI的世界也许就在眼前。标签:
-
13
2023-04世界焦点!苏垦农发(601952):技术指标出现看涨信号-KDJ 低位金叉(04-13)
从技术指标上看,苏垦农发(601952)出现看涨信号-KDJ低位金叉,后续有望上涨。资金流向数据:主力资金净流入80 94万元,占总成交额3 -
13
2023-04速看:“周杰伦”又来!第四次冲击IPO,减肥咖啡销售腰斩,真有效还是“智商税”?
4月11日,港交所官网显示,巨星传奇集团又提交了上市申请资料,此前在2021年9月、2022年3月和2022年10月公司三次交表,但都因财务资料过期而失 -
13
2023-04事业单位招聘面试流程_事业单位面试流程
今天小编肥嘟来为大家解答以上的问题。事业单位招聘面试流程,事业单位面试流程相信很多小伙伴还不知道,现在让我们一起来看看吧!1、谨供参考 -
13
2023-04环球信息:螃蟹不熟吃了会怎样?
螃蟹不熟吃了容易中毒的,螃蟹是杂食性生物,尤其河蟹还吃死的鱼虾所以半生不熟的螃蟹身体还容易有寄生虫,是不可以食用的,螃蟹蒸的时间一定 -
13
2023-04世界新动态:商汤科技概念股板块4月12日涨2.1%,科大讯飞领涨,主力资金净流入1.01亿元
从资金流向上来看,当日商汤科技概念股板块主力资金净流入1 01亿元,游资资金净流出1006 21万元,散户资金净流出9115 84万元。证券之星力求但 -
13
2023-04速递!男的都喜欢什么礼物
你可以送他一个你们两个照片做的相册,把照片贴到杯上,在杯子上面,就是一个很特别的回忆。送自己男朋友的礼物当然要让他知道 -
13
2023-04环球热消息:皇马此前15次欧冠淘汰赛首回合主场赢两球,最终12次晋级
在欧冠1 4决赛首回合的一场比赛中,皇马主场2-0击败切尔西,取得晋级先机。此前皇马在欧冠淘汰赛中曾15次首回合主场赢对手两球,最终他们12次 -
13
2023-04被吴磊倒追的快乐,谁懂啊?
嗑糖党和嗑颜党恐怕都要对电视剧《爱情而已》失望了。当隔壁姐狗剧恨不得一集撩、两集抱、三集吻时,《爱情而已》独树一帜:前十集男女主基本 -
12
2023-04【天天热闻】BR记者:若独行侠能留下欧文 他们将会关注艾顿&特纳&科林斯
直播吧4月12日讯今日,据BR记者EricPincus报道,消息人士透露,若独行侠休赛期能将欧文留下,他们可能会在交 -
12
2023-04当前快报:明星买房“跳单”风波追踪:谢娜、张杰因名誉权起诉中介公司
新京报讯(记者张建)4月12日,新京报记者从天眼查系统获悉,上海市金山区人民法院于4月10日向上海雅銮房产经纪公司(简称“雅銮公司”)、霍某某 -
12
2023-04当前报道:04.12盘后
今日市场謏幅高开蚤盘沪指謏幅冲高盘中位于周一高点再遇戗束遽而位于5日线间呈现窄幅的震荡午盘沪指未有明显攻势祛破僵局故而维持震荡时至尾盘 -
12
2023-04当前短讯!前20席位净持仓较长时间内处于净空态势 空头第一占市场20%
玻璃309合约今日增仓上行,多空持仓排名前20席中,多头第一名中信期货占全市场10%,空头第一名国泰君安占全市场20%。
苹果考虑将iPhone系列进一步延伸 2024年上市?
卷出一块好曲屏 真我10系列新品发布会举行
英国猴痘病例数预计将大幅上升
上海:视情适当延长毕业生在校生身份时间
国家电网确定新型电力系统科技攻关十大重点项目
比亚迪发布CTB电池车身一体化技术
商务部:坚定致力于实现全面、高水平的亚太自贸区
中办国办印发《意见》 推进实施国家文化数字化战略
初夏看市场:“菜篮子”产品生产供应充足 蔬菜在田面积达9877.2万亩
上海浦东重点生产企业复工复产超1100家
-
1
Intel最新处理器Arrow-S曝光 最高可达24核
-
2
配置拉满的电竞神机 雷神ZERO2023大黄蜂发布
-
3
真我10Pro系列发布 首发量产2160Hz超高频调光技术
-
4
阿富汗塔利班组建正规军
-
5
萨赫勒地区反恐形势面临新变数
-
6
北约北扩加剧欧洲安全风险
-
7
贵州毕节七星关区百所学校创办百个“红军班”
-
8
湖北省孝感军分区组织军地联合应急救援研究性演练
-
9
青藏高原等区域将新设一批国家公园
-
10
河北省承德军分区退役军人担纲教练主力