计算机行业专题:大语言模型的前世、今生与未来

大语言模型:NLP 技术的奇点时刻。

大语言模型:NLP 技术的奇点时刻。语言模型的核心是对任意一段文本序列进行概率建模,用一个高维向量来表示一个 token 的全部特征。我们将深度学习应用于 NLP 领域的范式转移总结为"有监督的机器学习->预训练+微调->预训练+提示"。其中,ChatGPT 的横空出世开启了“预训练+提示”的新范式,这主要得益于 OpenAI 对生成类模型(GPT)和算法规模化(Scalability)这两个基础技术路线的成功押注,大语言模型“涌现”出了解决复杂问题的通用能力,催生了本轮全球范围内的生成式 AI 浪潮。

大模型应用:数据感知与代理能力。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上,是大模型在垂直领域商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的实践方法,并对其优劣进行了比较分析。除了获取外部数据外,通过增加代理能力(Agent),让大语言模型具备自主理解、规划、执行复杂任务的能力,同时与计算机内部环境,甚至物理世界进行交互,这也将显著打开大模型应用的想象空间。此外,我们认为提升模型支持的上下文长度是应用创新的关键靶点,模型小型化也将助力大模型应用的商业化落地。

应用分析框架:通用能力与外部能力的组合。大模型应用可以被总结为,在基座模型的通用能力上,叠加一些其他的可实现的外部能力,这就包括上述的数据感知(可连接其他外部数据源)和代理能力(允许大模型与环境互动)。根据这一范式,我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能力的排列组合。基于此,展望未来大模型新应用的靶点可总结为:①通用能力的增强(上下文长度、复杂推理、数学、代码、多模态等)、②外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等)

计算机行业专题:大语言模型的前世、今生与未来-第1张图片

计算机行业专题:大语言模型的前世、今生与未来-第2张图片

计算机行业专题:大语言模型的前世、今生与未来-第3张图片

计算机行业专题:大语言模型的前世、今生与未来-第4张图片

计算机行业专题:大语言模型的前世、今生与未来-第5张图片

计算机行业专题:大语言模型的前世、今生与未来-第6张图片

计算机行业专题:大语言模型的前世、今生与未来-第7张图片

计算机行业专题:大语言模型的前世、今生与未来-第8张图片

计算机行业专题:大语言模型的前世、今生与未来-第9张图片

计算机行业专题:大语言模型的前世、今生与未来-第10张图片

附件
【零帕5333】计算机行业专题:大语言模型的前世、今生与未来.pdf
application/pdf
2.47MB
20
下载文件
附件购买(促销中)
促销价:1.6 积分原价:2 积分

登录注册购买。 VIP权益 | 不支持浏览器清单

免责声明:本文来自财通证券,著作权归作者所有,如有侵权请联系本平台处理。商业转载请联系作者获得授权,非商业转载请注明出处。内容投诉
零帕网 » 计算机行业专题:大语言模型的前世、今生与未来
您需要 登录账户 后才能发表评论

发表评论

欢迎 访客 发表评论