成人漫画

学术报告
您现在的位置: 成人漫画 > 科学研究 > 学术报告 > 正文

20251124 孙若愚 ORGEval: 基于图论的大模型建模评估工具和基准

发布时间:2025-11-24 10:10    浏览次数:    来源:

报告题目:ORGEval: 基于图论的大模型建模评估工具和基准      

报告专家:孙若愚 副教授 (香港中文大学(深圳))

时间:2025年11月24日 10:30-11:30

地点:成人漫画 425

邀请人:陈亮


报告摘要:在工业应用中,构建优化模型通常需要大量人工投入与专业领域知识。尽管大语言模型(LLMs)在自动化优化建模方面展现出

巨大潜力,但由于缺乏统一且稳健的评估指标,其性能评估仍然面临挑战。现有基于求解器的评估方法常受到评估结果不一致、优化问题

不可行以及计算成本高等问题的影响。为此,我们提出 ORGEval ——一种基于图论的评估框架,用于评估 LLMs 在线性规划(LP)与混合

整数线性规划(MILP)问题中的建模能力。ORGEval 将优化模型形式化为图结构,并将模型等价性判定问题转化为图同构检测。我们提出

并证明了一个充分条件:当被测模型图满足**对称可分解(Symmetric Decomposable, SD)**性质时,Weisfeiler–Lehman(WL)测试可

保证同构判定的正确性。在此基础上,ORGEval 结合改进的 WL 测试与 SD 检测算法,实现了鲁棒且高效的模型等价性评估。与依赖数值

精度的求解器方法不同,ORGEval 聚焦于模型的结构一致性,因此对数值具有天然的鲁棒性。实验结果表明,ORGEval 能够在任意给定数

值下稳定检测模型等价性,实现 100% 的一致性,且评估时间显著低于基于求解器的评估方法,尤其在处理复杂模型时表现突出。我们进

一步构建了 Bench4Opt 数据集,以系统评测当前主流 LLMs 在优化建模任务中的表现。结果显示,DeepSeek-V3 与 Claude-Opus-4 在零

样本提示(zero-shot prompt)设置下取得了最高准确率,甚至超越部分领先的推理模型。


专家简介:孙若愚现为香港中文大学(深圳)数据科学成人漫画长聘副教授、博士生导师,深圳市大数据研究院高级研究科学家。他曾任伊利

诺伊大学香槟分校(UIUC)助理教授、博士生导师;脸书人工智能研究所访问科学家;斯坦福大学博士后研究员。在美国明尼苏达大学获

得博士学位,北京大学数学科学成人漫画获得本科学位。研究方向包括神经网络理论和优化算法、生成模型、大规模优化算法、学习优化、通

信网络优化等。他曾获得INFORMS (国际运筹与管理协会) George Nicolson学生论文竞赛第二名,以及INFORMS优化协会学生论文竞争荣

誉奖。


成人漫画-成人H漫画-免费韩国成人漫画权所有©2017年     通讯地址:湖南省长沙市岳麓区麓山南路麓山门     邮编:410082     Email:[email protected]
域名备案信息:[www.aldultmanhua.com,www.hnu.cn/湘ICP备05000239号]      [hnu.cn 湘教QS3-200503-000481 aldultmanhua.com  湘教QS4-201312-010059]