2024年10月21日 星期一
油气大模型破局需从三方面发力
视觉中国供图

    ◎刘 合

    在人工智能技术日新月异的今天,生成式人工智能的代表——ChatGPT的横空出世,不仅在短时间内吸引了全世界关注的目光,更激发了各行业对大型预训练模型的无限遐想。油气行业作为国民经济的支柱之一,同样期待它能为油气勘探、开发带来新变革。尤其是随着国内油气资源品质逐步劣质化,油气勘探开发难度逐渐加大,亟须运用新技术提质增效。

    油气大模型应用面临挑战

    数据、算力和算法是大模型发展的核心要素。其中,数据是大模型应用的基石,算力是大模型应用的保障,算法是大模型应用的工具。由于油气行业具有特殊性,在上述三个层面,油气大模型开发都面临着诸多挑战。

    在数据方面,油气大模型应用面临数据稀缺、复杂和安全性的挑战。一是油气行业的数据涵盖了地质勘探、钻井、生产和运输等多个环节,每个环节的数据采集都伴随高昂的成本,样本数量少且获取非常困难,采集回的数据还具有多解性和不可验证性的特点。二是油气行业的数据类型非常多样化,处理这些不同种类、不同版本、不同结构的数据本身就充满挑战。三是大模型需要学习海量数据,但油气行业对数据的安全性和保密性有着极高的要求,数据不能上传公有云,且必须防止泄露,因此普遍存在“数据孤岛”问题。这一现状使得如何在保障数据安全前提下,整合分散的数据并训练行业基础模型,成为油气行业大模型应用的关键难题。

    在算力方面,油气大模型的训练和优化也面临着算力资源不足的挑战。大模型的训练和优化通常需要巨大的算力资源,这往往伴随着相当高的投入成本。自建算力中心需要巨额资金投入,而租赁算力又存在数据安全和隐私保护的问题。目前,国内油气行业仅具备有限的微调算力,普遍不具备训练行业基础模型所需的高水平算力。此外,由于各种原因,国内油气行业在短期内很难建立起满足大模型需求的算力资源。这一问题进一步加剧了算力资源的短缺,使得大模型的应用和发展受到严重制约。

    在算法方面,油气大模型也面临版权纠纷等挑战。算法的优劣直接影响大模型的实际应用效果。相较于传统深度学习等算法,大模型的技术门槛更高,目前的发展主要依赖少数高端算法人才推动。尽管许多开源大模型算法可以作为研发基础,但它们可能缺乏必要的技术支持和安全保障,存在商业机密泄露的风险,且其能力往往不如闭源算法。此外,开源算法的版权协议中存在诸多限制条款,使得基于开源算法进行研发时可能面临版权纠纷。如果选择使用闭源算法,则难以实现核心算法的自主可控。

    从数据、算力和算法入手推动大模型应用

    油气大模型应用并非坦途,需要在数据、算力和算法等方面破局。

    首先,数据之困需破冰。面对数据采集高成本与复杂性并存的挑战,破解数据之困,要以大模型应用为契机,推动数据治理,确保数据的全面性、准确性和时效性。油气行业在大模型方面的核心竞争力是“行业数据”,要做好“训练样本库”的基本功。油气企业必须强化数据全生命周期管理,从数据源头、数据采集、数据清洗、数据融合和匹配、数据完整性增强、数据标注等环节严格规范,建立高质量的训练样本库,提升数据治理能力,为模型提供坚实的数据基础。同时,应通过数据脱敏、数据加密、访问控制和审计、合规性审查等方式加强数据安全和隐私性保护。如设置合适的权限和用户角色,限制用户对数据库的访问和操作,保护数据的安全性。还需进行数据库的维护和优化工作,包括定期备份、数据清理、性能监控等。在此前提下,构建一批高质量开源数据集,推动油气大模型研发生态建设。

    其次,算力建设应灵活。面对资金投入与隐私保护之间平衡的挑战,破解算力之困,应以油气大模型为契机,推动融合算力建设。可采取租赁与自建相结合的方式,注重智算能力建设的同时,加强数据安全与隐私保护。例如,企业应根据自身业务需求、成本预算和技术实力,灵活选择算力获取方式。对于常规的计算任务,可通过租赁公有云资源快速响应;而对于涉及敏感数据或需长期稳定运行的任务,则可考虑自建或合作共建数据中心,确保数据安全与算力的可持续供给。在算力设施规划上,应注重长远,实现通用计算、智能计算和高性能计算的融合布局,通用计算满足日常运营的基本计算需求,智能计算侧重于深度学习、机器学习等智能算法的高效执行,高性能计算则针对大规模科学计算和复杂模拟,满足不同场景的需求,显著提高算力资源的利用效率。

    此外,算法创新勿盲从。面对大模型训练周期长与迭代速度快的双重考验,破解算法之困,应量身定做适合行业特性的算法模型,避免盲目跟风。应理性认识大模型的价值,优先实施场景模型和数据质量优良的L2行业基础模型,重点应放在微调和适配下游任务上,避免盲目投入通用基础模型的研发,确保技术栈的自主可控。油气行业应秉持资源优化配置的原则,聚焦油气主营业务,从投入成本、产出效益、技术成熟度,以及稳定性、行业聚焦、核心竞争力等方面慎重考虑。在岩心分析、地震资料处理解释、测井数据分析等特定领域,大模型能发挥显著作用,但不可过度依赖,应明确模型的适用范围。

    为了推动大模型技术的自主可控,还需加强“AI+能源”复合团队的建设。训练、应用大模型不能闭门造车,要打破传统行业壁垒,注重联合研发生态的建设,例如推动油气行业与互联网企业、高校等的合作,促进跨学科人才整合,形成产学研用紧密结合的创新体系,为油气大模型应用构建可持续的人才保障。同时,可通过项目合作、人才培养、共建研发平台等方式加强大模型算法等方面的合作交流,并明确合作目标与分工,以及知识产权分配与管理、数据保密和隐私保护等制度和规范。

    大模型必将推动油气行业新质生产力发展,未来可期,但道阻且长。油气行业要充分认识油气大模型的特殊性,从数据、算力、算法等方面做好工作,稳扎稳打,逐步推进,让AI成为推动油气行业转型升级的重要驱动力。

    (作者系中国工程院院士、中国石油勘探开发研究院正高级工程师)

京ICP备06005116