
10 月 17 日至 19 日,由深圳技术大学主办,深圳技术大学人工智能学院承办,深圳市坪山区人才工作局、北京大学、中国科学院自动化研究所等协办的第六届机器学习与计算机应用国际学术会议(ICMLCA 2025)在深圳召开。会上,中建发展产业公司中建电商云筑 AI 团队围绕大语言模型(LLMs)领域核心技术痛点进行成果分享,其两项研究成果 《Negative Example Mining-Driven DPO Data Construction: Enhancing LLM Extensibility with Knowledge Graph》与《A Graph Enhanced Memory System for Long-Turn Dialogue Question Answering》被会议正式收录。至此,云筑全年已有5篇高质量论文被收录,体现了学术界对云筑在模型研究与算法创新领域技术思路与实践积累的高度认可。
这两篇论文分别聚焦模型高质量数据标准构建、模型幻觉抑制、模型长上下文记忆增强三大关键方向,为 LLMs 的技术突破提供创新性解决方案。
KG-DPO:基于知识图谱和偏好策略算法

不同于以往研究,该框架将 KG 与 DPO 融合为协同范式,通过结构化数据保障真实性,借助对比学习提升辨别能力。核心贡献在于验证这种协同效应:在 HotPot 和 PQA 数据集上对比语料库与 KG 负采样,发现 KG 驱动的挖掘通过知识锚定的混淆模拟,在领域任务中表现更优;高质量负例数量无需过多即达性能饱和,质量比数量更关键。研究还发现,基础模型借 DPO 的错误辨别填补知识空白,指令模型则需其抑制错误但流畅的输出。KG-SFT 或语料库 - DPO 单独使用均非最优,唯有融合的 KG-DPO 实现突破,证实结构化数据与对比学习可相互增强。KG-DPO 推动了模型后训练,经多模型、多任务和多数据验证,为医疗、法律、金融等需事实精准性与推理完整性的领域提供了可扩展方案。
GEM:基于图存储结构记忆多路检索系统

本研究针对大语言模型在长上下文处理中普遍存在的记忆丢失问题,提出了一种基于图结构的记忆存储系统(GEM,即图增强实体记忆)。不同于传统方法多依赖检索增强生成(RAG)技术进行外部信息检索的局限,该系统将长上下文信息建模为图中的节点,并利用图中边的关联属性建立信息间的语义连接,最终实现长上下文场景下关联记忆的精准检索。研究核心包括:构建实体关系记忆系统,在检索过程中捕捉并利用实体级关联以提升下游任务精度;设计基于图的检索策略,通过实体引导的图遍历减少信息冗余,同时实现目标内容的精准召回;通过多检索与推理任务的大量实验(含模块性能分析和消融研究),验证了 GEM 的有效性。

本次大会创新采用线上线下融合模式,累计呈现6场专家前沿报告、13场青年学者报告及78组海报展示,构建起涵盖主题报告、口头报告、海报展示与即时互动的学术生态圈。会议期间高频次的知识碰撞与深度对话,吸引了来自30余所高校、科研院所和企业界专家学者参与学术交流。
当前,KG-DPO 与 GEM 两项技术已落地应用于标签抽取、投标检查项识别等实际任务中。在提升标签抽取精准度、保障投标检查项识别准确性的同时,大幅降低人工重复检测的工作量,优化了业务处理效率。
未来,云筑 AI 团队将持续深化 KG-DPO 与 GEM 技术的研发:一方面,拓展技术在招投标内容识别、检查项抽取等更多知识密集型领域的应用;另一方面,优化模型在复杂长上下文场景的适配能力。同时,团队将结合实际业务反馈迭代技术,推动其与产业深度融合,打造更高效的 AI 解决方案,助力提升建筑行业智能化水平,为大语言模型的技术创新与落地提供更多实践参考,进一步巩固云筑在相关领域的技术与应用优势。