20251124 孙若愚 ORGEval: 基于图论的大模型建模评估工具和基准

发布时间：2025-11-24 10:10 浏览次数：来源：

报告题目：ORGEval: 基于图论的大模型建模评估工具和基准

报告专家：孙若愚副教授（香港中文大学（深圳））

时间：2025年11月24日 10:30-11:30

地点：成人漫画 425

邀请人：陈亮

报告摘要：在工业应用中，构建优化模型通常需要大量人工投入与专业领域知识。尽管大语言模型（LLMs）在自动化优化建模方面展现出

巨大潜力，但由于缺乏统一且稳健的评估指标，其性能评估仍然面临挑战。现有基于求解器的评估方法常受到评估结果不一致、优化问题

不可行以及计算成本高等问题的影响。为此，我们提出 ORGEval ——一种基于图论的评估框架，用于评估 LLMs 在线性规划（LP）与混合

整数线性规划（MILP）问题中的建模能力。ORGEval 将优化模型形式化为图结构，并将模型等价性判定问题转化为图同构检测。我们提出

并证明了一个充分条件：当被测模型图满足**对称可分解（Symmetric Decomposable, SD）**性质时，Weisfeiler–Lehman（WL）测试可

保证同构判定的正确性。在此基础上，ORGEval 结合改进的 WL 测试与 SD 检测算法，实现了鲁棒且高效的模型等价性评估。与依赖数值

精度的求解器方法不同，ORGEval 聚焦于模型的结构一致性，因此对数值具有天然的鲁棒性。实验结果表明，ORGEval 能够在任意给定数

值下稳定检测模型等价性，实现 100% 的一致性，且评估时间显著低于基于求解器的评估方法，尤其在处理复杂模型时表现突出。我们进

一步构建了 Bench4Opt 数据集，以系统评测当前主流 LLMs 在优化建模任务中的表现。结果显示，DeepSeek-V3 与 Claude-Opus-4 在零

样本提示（zero-shot prompt）设置下取得了最高准确率，甚至超越部分领先的推理模型。

专家简介：孙若愚现为香港中文大学（深圳）数据科学成人漫画长聘副教授、博士生导师，深圳市大数据研究院高级研究科学家。他曾任伊利

诺伊大学香槟分校（UIUC）助理教授、博士生导师；脸书人工智能研究所访问科学家；斯坦福大学博士后研究员。在美国明尼苏达大学获

得博士学位，北京大学数学科学成人漫画获得本科学位。研究方向包括神经网络理论和优化算法、生成模型、大规模优化算法、学习优化、通

信网络优化等。他曾获得INFORMS (国际运筹与管理协会) George Nicolson学生论文竞赛第二名，以及INFORMS优化协会学生论文竞争荣

誉奖。

下一篇：20251121 罗自炎 highly efficient second-order algorithm for solving group SLOPE-regularized least squares problems

成人漫画-成人H漫画-免费韩国成人漫画权所有©2017年通讯地址:湖南省长沙市岳麓区麓山南路麓山门邮编：410082 Email：[email protected]
域名备案信息：[www.aldultmanhua.com,www.hnu.cn/湘ICP备05000239号] [hnu.cn 湘教QS3-200503-000481 aldultmanhua.com 湘教QS4-201312-010059]