团队主持和参与的三篇论文被 ACL 收录


近日,国际计算语言学协会年会ACL 2026公布录用结果,SciAIEngine团队共3篇论文被Findings of ACL接收。ACL全称为 Annual Meeting of the Association for Computational Linguistics,是计算语言学与自然语言处理领域最具影响力的国际学术会议之一,也是中国计算机学会(CCF)推荐的A类会议。

此次团队被录用的3篇论文,分别聚焦科技文献内容中细粒度学术观点分类、科技文献文档级科学信息抽取和科技文献理解数据梳理,从语义理解、结构化抽取与数据体系建设等维度,推动了科技文献内容深度挖掘技术研究,是团队在“科技文献内容深度挖掘支撑智能化科研”的系统布局和持续积累的重要成果。3篇论文简介如下:

1. OPINE: A Prior-calibrated Scoring Framework for LLM-based Multi-label Scientific Opinion Classification

张梦婷、潘高峰、张智雄*、黎洋、张广寅

简介:该研究围绕学术观点分类任务展开,重点解决科学文本中观点表达的多标签特性以及学术论文篇章结构对语篇功能分类的隐性约束问题。针对现有基于大语言模型的方法多采用直接生成标签、难以显式呈现判别依据、且对篇章结构利用不足的局限,论文提出 OPINE 框架,将任务重构为“评分—校准—精调”的多阶段决策过程。该方法首先由大语言模型为候选类别独立生成匹配得分,再引入AIMRaD篇章结构先验对得分进行校准,并通过基于分位数的解码规则识别可能共存的多种语篇功能,同时结合成对精调机制缓解语义相近类别之间的分类混淆。论文还构建了一个覆盖论文不同章节、包含18类语篇功能的新基准数据集。实验结果表明,OPINE整体性能优于多种强基线模型,在最优设置下微平均F1达到 63.20%。

2. SudokuFill: A Multi-Agent Progressive Filling Framework for Document-Level Scientific Information Extraction

黎洋、王雅娇、张瑜、张元哲、胡懋地*、张梦婷、孙曦、岳华*、张智雄*

简介:该研究聚焦文档级科学信息抽取任务,针对现有方法普遍采用“局部抽取—后期拼装”范式、难以充分利用字段之间全局关联、在长文档与多模态科学论文中容易出现信息割裂和级联错误等问题,提出了全新的 SudokuFill 框架。该方法将科学信息抽取重新建模为类似“数独求解”的渐进式填充过程:一旦部分字段被高置信度确认,就将其作为后续字段推理的约束条件和内部监督信号,从而逐步完成整条结构化记录的稳定填充。在实现层面,SudokuFill构建了一个两阶段、多轮次、多智能体协同的推理框架,通过页级探测与优先级排序完成字段调度,再引入页面智能体、行约束智能体和列约束智能体开展多轮协商、证据聚合与候选修正,不断提升整条记录的一致性。实验表明,与传统孤立式字段抽取流程相比,这种渐进式全局填充机制更适合处理跨页分散证据、图文混合线索以及复杂字段依赖关系。

3. Datasets for Scientific Literature Understanding: A Survey

张元哲、赵勋、胡懋地*、孙曦、宋东桓、张智雄*

简介:该论文是一项面向科技文献理解数据集的系统性综述研究,聚焦该方向数据资源的发展现状、建设特点和应用基础。论文围绕科技文献理解相关数据集展开归纳与梳理,从数据来源、任务设置、标注方式、评价维度和应用场景等方面进行系统总结,旨在为后续模型研究、任务评测和基准构建提供更加清晰的数据参考。与面向单一任务或单个数据集的研究不同,该工作更强调从整体视角分析现有数据资源的分布特征、覆盖范围与适用边界,并讨论该领域在数据代表性、任务统一性、标准规范性和持续建设机制等方面面临的共性问题。该综述为科技文献理解方向的高质量数据集建设和评测体系完善提供了有益参考。