全模态大模型：连接“数据孤岛”的桥梁 --科技日报数字报

　　◎本报记者沈唯

　　11月26日，在湖北武汉举行的2024东湖国际人工智能高峰论坛上，“紫东太初”大模型3.0全球首发。

　　2021年发布的“紫东太初”大模型1.0是全球首个图文音三模态大模型，由中国科学院自动化研究所联合武汉人工智能研究院研发。2023年，“紫东太初”大模型2.0发布，其在原有三模态基础上，进一步融入视频、信号、3D点云等多种模态数据，具备全模态理解能力、生成能力和关联能力。

　　日前在2024年世界科技与发展论坛期间发布的《2024年人工智能十大前沿技术趋势展望》中，“全模态大模型：打破数据壁垒”被列入其中。与多模态大模型相比，全模态大模型有何不同之处？它将为相关行业带来哪些变化？科技日报记者就这些问题采访了相关专家。

　　延伸升级多模态

　　全模态大模型是一个综合性概念，指的是一种能够处理、理解和生成多种模态数据的人工智能模型。中国科学院自动化研究所紫东太初大模型研究中心常务副主任、武汉人工智能研究院院长王金桥解释，多种模态包括但不限于文本、图像、音频、视频、传感器数据，以及结构化和非结构化数据等。

　　“全模态大模型的核心目标是通过统一架构，完成多模态数据的感知、理解、生成和推理任务，提供通用解决方案，而无需针对特定模态单独开发模型。”北京科技大学智能科学与技术学院副教授王耀祖介绍，全模态大模型致力于实现模态间的无缝交互与信息融合，构建一个统一的智能体系。

　　相比于全模态大模型，多模态大模型这一概念似乎更广为人知。“从单模态到多模态，再到全模态是人工智能大模型技术发展的必然趋势。”王金桥认为，全模态大模型在多模态大模型的基础上，进一步融合了更多种类的模态数据，提升了模型的认知、理解和创作能力。因此，全模态大模型可以被视为多模态大模型的延伸和升级。

　　王耀祖解释，传统的人工智能系统需要为每种模态开发单独的模型，造成数据孤立和互通困难。而全模态大模型通过统一的表征学习，将不同模态的数据映射到同一个语义空间，能够消除模态隔阂，实现数据的跨模态融合和协作。

　　全模态大模型还可提升数据利用效率。在传统架构中，数据通常以模态为单位独立存储和处理，可能造成数据重复存储和浪费。而全模态大模型则允许系统以更加集约化的方式处理多模态数据。

　　“全模态大模型有望解决‘数据孤岛’问题。”王耀祖介绍，在医疗、工业制造、金融等行业，数据常以模态为划分依据，彼此孤立。全模态大模型能够作为桥梁，连接这些“孤岛”，并挖掘出它们深层次的关联。

　　促进智能化发展

　　目前，一些国产大模型不断提升多模态能力，在众多领域落地。今年6月，华为云盘古大模型5.0发布，在全系列、多模态、强思维三个方面全新升级。盘古大模型5.0能更好更精准地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。盘古大模型已在30多个行业、400多个场景中落地，在政务、金融、制造、医药研发、煤矿、钢铁、铁路、自动驾驶、工业设计、建筑设计、气象等领域发挥积极作用。王耀祖举例说，湖南钢铁集团与湖南移动、华为合作联合开发的湘钢盘古大模型，实现全厂关键设备在线监测、提前预警和智能诊断，生产作业率提高20%；实现产品质量在线判定、一键追溯和一键分析，分析效率提升60%。

　　“紫东太初”大模型在多领域发力，持续赋能行业智能化发展。在该大模型加持下，武汉人工智能研究院与华工科技打造的智能焊接智能体直接支持25种焊接工艺自动化焊接；与九州通合作研发的智慧系统，支持1万多种医疗骨科器械和耗材自动化的管理；与国家体育总局推出面向奥运人才体教融合的大模型……

　　王耀祖说，在现有大模型的基础上，未来的全模态大模型可以整合更加多样的数据类型，让分析更准确、决策更智能、控制更精准。

　　王金桥认为，在医疗领域，全模态大模型可以更高效处理各种模态的海量病历数据，进行临床症状描述并检验检查结果，为医生提供更加全面、精准的诊断建议；在交通领域，它将进一步助力智能交通系统建设，提升交通运输效率和安全性，有效缓解交通拥堵；在教育领域，它能为每个学生量身定制学习方案，提高学习效果和学生满意度……

　　“凭借超大规模参数和复杂计算结构，全模态大模型在多个行业中展现出巨大应用潜力，未来能够助力许多行业实现智能化、高效化和个性化发展。”王金桥说。

　　开发仍面临难题

　　受访专家认为，全模态大模型有利于进一步拓展人工智能的应用场景，但这并不意味着全模态大模型将完全替代多模态大模型。王金桥说，在某些特定应用场景下，多模态大模型已经能满足需求，这种情况就无需引入全模态大模型。

　　王耀祖也认为，多模态大模型通常针对特定模态组合进行优化，适用于特定领域应用。全模态大模型虽然通用性强，但可能在某些领域表现不如专门设计的多模态大模型。同时，全模态大模型对计算资源的需求远高于多模态大模型。对于许多中小型企业或资源受限的场景而言，多模态大模型仍是更为实际的选择。

　　“全模态大模型的开发与应用，本身还面临着一系列挑战，涉及技术、数据、资源、行业接受度等多个方面。”王金桥说，全模态大模型需要大量高质量数据进行训练，收集、整理和标注这些数据可能耗费大量资源。数据的质量和多样性对大模型的性能有很大影响，而某些领域的数据可能难以获得或获取成本过高。

　　王耀祖还提到，大模型容易受到数据偏差的影响，可能生成带有偏见或有害的内容。此外，大模型在处理隐私信息时也存在一定风险。因此，开发全模态大模型时，还需要进一步研究、监测大模型中的潜在偏见，并且在训练过程中引入隐私保护机制，以保护用户数据安全。

　　“未来，我们需要优化数据采集与处理、简化模型结构、加强行业合作与定制化开发、建立伦理和监管框架，逐步克服难题，推动全模态大模型在更多领域应用。”王金桥说。