相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现的更加智能,能够执行更大范围的任务,有望成为人类智能助手,推动 AI 迈向 AGI。
相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现的更加智能,能够执行更大范围的任务,有望成为人类智能助手,推动 AI 迈向 AGI。就技术架构而言,多模态技术可拆解为编码、对齐、解码与微调等步骤,逐步挖掘多模态关联信息,输出目标结果。文生图 CLIP 模型为最先成熟的多模态技术,目前,多模态已不再局限于图文两层信息。例如,Meta-Transformer 可同时理解并处理 12 种模态信息。