支持20万字输入,月亮的阴暗面杨:千亿模型进入“长文”时代

日期:2023-10-17 14:02:07 / 人气:826


百款大战的那一刻,中国的OpenAI会是谁?今年6月,科技媒体《资讯》盘点了中国AI初创企业Top5,分别是MiniMax、蓝洲科技、智普AI、光年外(被美团收购)、杨。
杨是唯一一个以个人名义进入名单的运动员。只要他进了大模特,就会占据一席之地。近五年来,杨在自研语言处理(NLP)领域具有相当的影响力,其学术论文在中国学者的引用排名中位列前10,在40名以下排名第一。
昨天,杨在今年3月1日成立的通用人工智能(AGI)公司“月球的黑暗面”(英文名MoonShot AI)发布了其千亿参数模型moonshot及其智能助手Kimi Chat。
大模型的应用效果通常取决于两个核心指标。一个是模型的参数数量,决定了大模型的“计算”能力;第二,能接收多少文本输入,也就是长文技术,决定了大模型的“记忆”能力。《月球的黑暗面》在千亿参数模型的基础上,突破了长文技术的挑战。
Kimi Chat最多可支持20万个汉字的长文本输入,是目前全球市场上可量产使用的大型模型服务所能支持的最长上下文输入长度。相比之下,Anthropic的Claude-100k型号支持8万字左右,OpenAI的GPT-4-32k只支持2.5万字左右。
同时,杨强调,Kimi Chat通过创新的网络结构和工程优化,实现了数千亿参数的无损长期关注机制,但并不依赖于常见的对性能有较大损害的“捷径”方案,如滑动窗口、下采样、小模型等。
月亮的阴暗面的名字来自杨最喜欢的专辑之一,的月亮的阴暗面。该公司成立于专辑发行50周年纪念日。由于一直背对着地球,月球的阴暗面总是在地球人的视线之外。它象征着神秘和未知,公司的愿景是在人工智能领域探索这种未知。
发布会结束后,杨接受了《甲子光年》等媒体的采访,深入解读了《月球背面》长文的技术特点以及此后的商业登陆计划。
1.“登月计划”第一步:长文
月球的黑暗面将长文技术称为大模型“登月计划”的第一步
支持更长的上下文,意味着大模型有更多的“记忆”,这使得大模型的应用更深更广。比如通过多份财务报告进行市场分析,处理长篇法律合同,快速梳理多篇文章或多个网页的关键信息,基于小说设定的角色扮演等等。
然而,如果你想得到一个支持足够长的上下文能力的模型,你将面临许多训练和推理的挑战。在训练层,这必然带来更高的计算能力需求和极其严重的内存压力,缺乏足够的高质量长序列数据。
在推理层,Transformer模型中自我注意机制的计算量会随着上下文长度的增加而呈平方级增加。例如,当上下文增加32倍时,计算量实际上会增加1000倍。同时,长上下文也会带来内存和带宽压力。
对于长文技术的发展,市场上有不同的技术路线。但在杨看来,这些路线几乎都是以牺牲一些业绩为代价的“捷径”。杨将其归纳为三类:
“金鱼”模式很容易“忘记”。通过滑动车窗等方式主动放弃以上。,并且只保留最新输入的注意机制。模型不能完全理解全文,不能处理跨文档比较和长文本的全面理解。比如,不可能从10万字的用户访谈录音中提取出最有价值的10条意见。
“蜜蜂”模式只关注局部,忽略整体。通过下采样上下文或RAG(搜索增强生成),只保留部分输入的注意机制。模型也不能完全理解全文。比如,不可能从50份简历中归纳总结出候选人的画像。
“蝌蚪”模型,模型能力还没有完全开发出来。通过减少参数的数量(例如,减少到数百亿个参数)来提高上下文长度,这种方法会降低模型本身的能力。虽然可以支持更长的上下文,但是大量的任务并不能胜任。
杨认为,简单的捷径无法达到理想的产品化效果。所以月球黑暗面的技术路线是不走捷径,扎扎实实解决算法和工程的双重挑战,在计算能力、存储、带宽等技术方面做极致优化。
杨在不同场景下展示了Kimi Chat的长文能力。例如,您可以直接汇总网页或PDF文档的信息:
可以根据财务报告直接汇总关键信息:
当发现新的算法论文时,可以直接根据论文复制代码:
你只需要一个网站,就可以和你喜欢的原创神角色聊天,实现“角色扮演”:
月球的黑暗面是如何做到这一点的?
2.豪华人才团队,融资超20亿。
虽然才成立半年,但杨表示,在众多大型模型公司中,“人才密度”是月球背面最重要的特征之一。
杨毕业于清华大学跨学科信息学院,获学士学位,师从清华大学教授和教授。杨本科毕业后,前往自然语言处理(NLP)研究排名世界第一的卡耐基梅隆大学语言技术研究所(LTI)攻读博士学位,师从苹果AI负责人鲁斯兰·萨拉胡特迪诺夫(Ruslan Salakhutdinov)和谷歌AI首席科学家威廉·w·科恩(William W. Cohen)。
周鑫宇和吴雨欣是《月球黑暗面》的两位联合创始人,两人都是清华背景,在大型模型的工程和算法方面都有丰富的经验。
目前月球黑暗面已经组建了一个50人左右的团队。超过一半的成员有海外经历,来自谷歌、Meta、亚马逊等全球科技巨头。整体团队包括NLP、CV、RL、Infra方面的人才,做了很多世界级的影响。
比如在大模型方向,团队成员发明了绳索相对位置编码,这是Metalama、Google PALM等大多数主流模型的重要组成部分。群体规范化的发明是稳定扩散等人工智能模型成功的关键组成部分。杨本人发表了XLNet和Transformer-XL作为作品,Transformer-XL成为第一个全面超越的关注度语言模型,论文成为NeurIPS 2019和ACL 2019最高被引论文之一;XLNet在20个任务上超越了Google BERT模型。
在视觉领域,团队成员发明了MoCo,引爆了基于比较学习的视觉预训练范式,也是CVPR近三年被引用最多的作品。发明了ShuffleNet,最高效的视觉网络结构之一;领导开发了广泛使用的可视化开源项目detectron2,并将其集成到Meta VR/AR产品中。
在基础设施方面,团队核心成员带领数十人从无到有开发了全球领先的深度学习框架,还拥有千卡集群自动硬件运维告警、百亿级特征检索、大规模(数十Pb数据、百万台机器)分布式系统性能优化的经验。
在强化学习方面,团队成员提出了几个基于关系学习的样例方法作为作品,被斯坦福大学、Google、MIT、Amazon等团队使用和扩展。,并受到OpenAI RL联合创始人约翰·舒尔曼(John Schulman)的亲自邀请加入。
除了技术层面,月球的黑暗面也吸收了很多优秀的产品人才,一直在交易上亿的DAU产品。
在豪华人才团队的加持下,《月亮的阴暗面》迅速获得投资人青睐,获得红杉资本、真格基金、今日资本、理思资本等投资机构近20亿元人民币融资,估值超过3亿美元。
3.做AI时代的超级App
从商业模式来看,大模式分为to B和to C两大阵营,虽然月球黑暗面在商业落地的探索上保持开放的心态,但其核心定位在to C上。
对于企业定位,杨把这个问题从头到尾。《月球黑暗面》名字的由来是为了探索智能的边界,让智能真正有用,实现个性化价值,这就需要提高技术和产品的迭代效率。
“迭代效率是我们现在非常重要的一个关键词。它决定了企业文化和人才结构,决定了做这件事的最终思路。当这些纬度结合在一起时,to C是一个自然的选择。”杨对说道。
杨认为,AI Native的产品将在to C领域产生新的流量入口,成为AI时代的超级App。这是一个非常大的机会。
想做超级App,必须用自研的模式,因为“只有自研的模式才能差异化用户体验”。
这一观点逐渐成为业内共识。比如在最近的YC校友分享会上,OpenAI的CEO Altman也在演讲中表示,“劫持”OpenAI的公司注定不会长久。
对于目前比较流行的开源模式,杨认为本质上是to B的获客工具,或者是超级App之外的长尾应用,基于开源模式可以发挥数据或者场景的优势。
但是开源模式无法建立产品壁垒。比如海外有上百个基于开源扩散模型Stable Diffusion的应用,但是最后实际上没有一个出来。
其次,在开源技术的基础上不可能通过数据的虹吸效应不断优化模型,因为开源模型本身是分布式的,没有一个集中的地方接收数据。
因此,杨坚定地表示,无论从底层逻辑还是目前的现象来看,都需要通过闭源模式来构建产品壁垒。
在落地场景上,杨表示会在娱乐场景、生产力工具场景等不同方向进行尝试,而不是局限在一个非常狭窄的方向。
杨没有透露很多细节,但表示最终的考验是技术能否领先,能否在产品中迅速找到市场,这还是一个巨大的空白市场。
月球黑暗面目前的核心战略是通过自研打造to C领域的超级App,把握AI时代的流量入口。"

作者:鼎点娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 鼎点娱乐 版权所有