关于我们



研究组概况


中国科学院文献情报中心科技文献语义挖掘研究组, 成立于2017年。先后承接了中国科学院文献情报能力建设专项《基于科技文献知识的人工智能(AI)引擎建设》、国家科技图书文献中心(NSTL)《下一代开放知识服务平台总体设计及关键技术研发专项--基于深度学习的科技论文语步标注技术工具研发》、中国科学院文献情报中心《科技文献丰富语义检索应用示范》、国家社科基金重大项目《大数据驱动的科技文献语义评价体系研究》(21&ZD329)、国家重点研发计划项目《科技文献内容深度挖掘及智能分析关键技术和软件》(2022YFF0711900)等多项深度学习相关项目。 科技文献资源中蕴含着丰富的知识内容,如定义、概念,研究背景、研究问题、研究基础、研究思路、论文中应用到的理论工具和方法、论文所进行的科学试验、得到的实验结果、形成的研究结论等。对科技文献中的知识进行揭示是数字图书馆研究和建设人员的一项重要任务。



研究主题




科研动态


2020年12月4日: 科技文献知识AI引擎发布。

2022年8月28日: 课题组参加“2022年中国情报学年会&情报学与情报工作发展论坛暨第十二届全国情报学博士生学术论坛”并荣获多项奖项。包括:

博士毕业生刘欢的学位论文《嵌入外部知识的科技论文摘要预训练语言模型构建方法研究》荣获“2022年全国情报学优秀博士学位论文奖”,导师张智雄获得优秀指导教师奖。

博士生李婕等《增加类簇级对比的SCCL文本深度聚类方法研究》论文获得情报学年会优秀论文奖;

博士生李雪思等《科技文献研究问题句识别方法研究》论文获得情报学博士生论坛二等奖;

博士生王宇飞等《中文科技论文标题自动生成系统的设计与实现》论文获得情报学博士生论坛三等奖。

2023年12月19日: 课题组成员邵田博士后入选2023年度国家资助博士后研究人员计划C档。



科研团队


课题负责人


张智雄

深度学习技术方法、语义标注、

信息抽取、网络科技信息监测、

预印本学术交流。

中国科学院文献情报中心副主任,研究馆员(二级),博士,博士生导师。"中科院特聘硏究员计划”入选者,“中国科学院朱李月华优秀教师奖”获得者。中国科学技术情报学会知识组织专业委员会副主任,中国图书馆学会数字图书馆研究与建设专业委员副主任,《Data Intelligence》(DI)期刊共同主编、《数据分析与知识发现》期刊副主编、《Journal of Data and Information Science》(JDIS)、《数字图书馆论坛》、《智库理论与实践》、《情报工程》期刊编委。出版专著一部,发表研究论文一百五十余篇,译著三部。主持和参加国家、省部级项目四十余项。主持和作为核心成员参的国家级重要课题有“科技文献内容深度挖掘及智能分析关键技术和软件”(国家重点研发计划项目,2022YFF0711900)、“大数据驱动的科技文献语义评价体系研究”(国家社科基金重大项目,21&ZD329)、“预印本学术交流的理论和实践研究”(国家社科基金项目,19BTQ006)、“基于语言网络的文本主题中心度计算方法研究”(国家自然科学基金,批准号为61075047)、“科技知识组织体系共享服务平台建设”(“十二五”国家科技支撑计划重点项目课题,编号:2011BAH10B03)、 “从数字信息资源中实现知识抽取的理论和方法研究”(国家社科基金,05BTQ006)、“数字资源长期保存技术的研究与实践”(国家社科基金,09FTQ005)项目、“基于海量信息分析的科技评价方法、技术研究与应用”(“十一五”国家科技支撑计划重点项目课题,2006BAH03B05)、“网络信息资源保存的理论与方法研究”(国家社科基金,06BTQ025)、“网络科技信息中爆发主题的监测与分析方法研究”(国家社科基金,09BTQ035)等。

团队成员

毕业博士/出站博士后


于改红(博士毕业,中国科学院文献情报中心高级工程师)

研究型论文的功能性语篇元素自动标注,科技信息监测


张敏(博士毕业,中国科学院武汉文献情报中心高级工程师)

智能语义索引构建,主题标引,科技信息监测


刘熠(博士后出站,中国科学院文献情报中心创新研究员)

科技文献智能问答、自动综述、文本聚类


刘欢(博士毕业,入职美的集团任算法工程师岗位)

科技文献预训练语言模型、科技文献知识引擎构建


丁良萍(博士毕业,英国曼彻斯特大学博士后)

科技论文关键词抽取、命名实体识别


赵旸(博士毕业,入职中国科学院文献情报中心数据资源部)

自动分类、基金语步识别、客户端开发


李雪思(博士毕业,入职河南投资集团任智能化处理研究员岗位)

科技文献概念定义句识别、事件抽取

在读博士/博士后


王猛(博士后)

科学问题价值抽取


邵田(博士后)

科技文献领域科学数据提取


李婕(博士后)

期刊审稿人推荐、科技文献语料构建、文本聚类


王宇飞(博士)

文本标签自动生成、关键词排序


张梦婷(博士)

科技文本标题生成、科研实体识别


林歆(博士)

科技文献引用句识别


黎洋(博士)

知识对象抽取


张广寅(博士)

科技文献多模态解析


王雅娇(博士)

聚类标签生成



发表论文


1. Zhixiong Zhang, Huan Liu, Liangping Ding, Pengmin Wu, Gaihong Yu. Moves Recognition in Abstract of Research Paper Based on Deep Learning[C]. 2019 ACM/IEEE Joint Conference on Digital Libraries (JCDL). 2019.06

2. 丁良萍, 张智雄, 刘欢. 影响支持向量机模型语步自动识别效果的因素研究[J]. 数据分析与知识发现. 2019.12

3. Gaihong Yu, Zhixiong Zhang, Huan Liu, Liangping Ding. Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts[J]. Jornal of Data and Information Science (JDIS). 2019.12

4. 马娜, 张智雄, 于改红. 科技论文引用对象研究综述[J]. 图书情报工作. 2019.12

5. 张智雄, 刘欢, 丁良萍, 吴朋民, 于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究[J]. 数据分析与知识发现. 2020.01

6. Liangping Ding, Zhixiong Zhang, Huan Liu, Jie Li, Gaihong Yu. Automatic Keyphrase Extraction from Scientific Chinese Medical Abstracts Based on Character-Level Sequence Labeling[C]. 2020 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2020.08

7. 赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J]. 数据分析与知识发现. 2020.09

8. 张智雄, 刘欢, 于改红. 构建基于科技文献知识的人工智能引擎[J]. 农业图书情报学报. 2021.01

9. 刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述[J]. 数据分析与知识发现. 2021.01

10. 张敏, 丁良萍, 刘欢. 面向科技文献的多维语义索引构建思路及实现[J]. 情报理论与实践. 2021.4

11. Liangping Ding, Zhixiong Zhang, Huan Liu, Yang Zhao. Design and Implementation of Keyphrase Extraction Engine for Chinese Scientific Literature[C]. 2021 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2021.09

12. Liangping Ding, Zhixiong Zhang, Yang Zhao. Bert-Based Chinese Medical Keyphrase Extraction Model Enhanced with External Features[C]. The 23rd International Conference on Asia-Pacific Digital Libraries. 2021.09

13. 丁良萍, 张智雄, 刘欢. 利用本体范畴体系实现物理学文献中的领域命名实体识别[C]. 2021中国情报学会年会&全国情报学博士生学术论坛(三等奖). 2021.09

14. 张敏, 刘欢, 丁良萍, 范青. 基于深度学习的网络科技信息情报价值计算方法研究[J]. 图书情报工作. 2021.10

15. 赵旸, 张智雄, 刘欢. 基于层次分类法的中文医学文献分类研究[J]. 图书馆学研究. 2021.11

16. 丁良萍, 张智雄, 张敏, 刘欢. 一个语义检索系统用户交互界面的设计与实现[C]. 2021全国图书馆学博士生论坛. 2021.11

17. 赵旸, 张智雄, 刘欢, 李婕. 基金项目摘要的语步识别系统设计与实现[J]. 情报理论与实践. 2022.04

18. 李雪思, 张智雄, 刘欢. 基于BERT模型实现概念定义句自动识别[J]. 情报科学. 2022.05

19. 李雪思, 张智雄, 刘欢. 一种基于序列标注的概念短语抽取方法[J]. 图书情报工作. 2022.06

20. 张智雄, 赵旸, 刘欢. 构建面向实际应用的科技文献自动分类引擎[J]. 中国图书馆学报. 2022.06

21. Liangping Ding, Zhixiong Zhang, Huan Liu. A Bootstrapped Chinese Biomedical Named Entity Recognition Model Incorporating Lexicons[C]. 2022 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2022.09

22. 赵旸, 张智雄. 当前国际预印本平台主要创新功能研究[J]. 中国科技期刊研究. 2022.10

23. 李雪思, 张智雄. 预印本学术交流生态中的参与主体及作用[J]. 中国科技期刊研究. 2022.10

24. 王宇飞, 张智雄, 赵旸, 张梦婷, 李雪思. 中文科技论文标题自动生成系统的设计与实现[J]. 数据分析与知识发现. 2022.11

25. 赵旸, 张智雄, 李婕. 项目申请书摘要文本的语步识别语料构建[J]. 图书情报工作. 2022.11

26. 李婕, 张智雄. 考虑局部特征和全局几何结构的文本深度聚类方法研究[C]. 吉林大学第十五届博士生国际学术论坛(三等奖). 2022.11

27. Liangping Ding, Tianyuan Huang, Huan Liu, Yufei Wang, Zhixiong Zhang. Distantly Supervised Named Entity Recognition with Category-Oriented Confidence Calibration[C]. International Conference on Asian Digital Libraries. 2022.12

28. 钱力, 刘熠, 张智雄, 李雪思, 谢靖, 许钦亚, 黎洋, 管铮懿, 李西雨, 文森. ChatGPT的技术基础分析[J]. 数据分析与知识发现. 2023.03

29. 张智雄, 于改红, 刘熠, 林歆, 张梦婷, 钱力. ChatGPT对文献情报工作的影响[J]. 数据分析与知识发现. 2023.04

30. 李婕, 张智雄, 王宇飞. 增加类簇级对比的SCCL文本深度聚类方法研究[J]. 数据分析与知识发现. 2023.04

31. Jie Li, Gaihong Yu, Zhixiong Zhang. RCMR 280k: Refined Corpus for Move Recognition Based on PubMed Abstracts[J]. Data Intelligence. 2023.04

32. 刘熠, 张智雄, 王宇飞, 李雪思. 基于语步识别的科技文献结构化自动综合工具构建[J]. 数据分析与知识发现. 2023.05

33. Liangping Ding, Giovanni Colavizza, Zhixiong Zhang. Partial Annotation Learning for Biomedical Entity Recognition[C]. International Society for Scientometrics and Informatrics. 2023.05

34. 李雪思, 张智雄, 刘熠, 王宇飞. 科技文献研究问题句识别方法研究[J]. 图书情报工作. 2023.05

35. Xuesi Li, Liangping Ding, Zhixiong Zhang. Drug Target Extraction from Biomedical Articles Based on a Two-Stage Cascading Framework[C]. 2023 ACM/IEEE Joint Conference on Digital Libraries (JCDL). 2023.06

36. 张智雄. 人工智能发展需要关注“复利效应”[J]. 竞争情报. 2023.06

37. 张智雄, 张梦婷, 林歆, 赵昆华, 李苑. 开放科学环境下全球科技期刊的发展态势[J]. 中国科学院院刊. 2023.06

38. Yang Zhao, Zhixiong Zhang, Yufei Wang, Xin Lin. Identifying research contributions based on semantic analysis of citation sentences: A case study of the 2021 Physiology or Medicine Nobel Prize laureates[C]. International Society for Scientometrics and Informatrics (ISSI 2023). 2023.07

39. Yang Zhao, Xin Lin, Yufei Wang, Mengting Zhang, Zhixiong Zhang. RefSciRate: A Reference Rating Method for Single Scientific Papers[C]. International Society for Scientometrics and Informatrics (ISSI 2023). 2023.07

40. Yang Zhao, Zhixiong Zhang, Yue Xiao. Leveraging MRC Framework for Research Contribution Patterns Identification in Citation Sentences[C]. The 25th International Conference on Asia-Pacific Digital Libraries (ICADL 2023). 2023.11

41. 李雪思,张智雄,王宇飞,等.领域知识演化分析方法综述[J].数据分析与知识发现,2024,8(01):1-15.

42. 王宇飞,张智雄,李雪思,等.基于IAR的短语级聚类标签自动构建算法研究[J].数据分析与知识发现,2024,8(Z1):191-199.

43. 张智雄.在开放科学和AI时代塑造新型学术交流模式[J].中国科技期刊研究,2024,35(05):561-567.

44. 张智雄,王玉菊,赵旸.国际开放同行评审平台的发展趋势及其对中国的建议[J].农业图书情报学报,2024,36(05):14-22.DOI:10.13998/j.cnki.issn1002-1248.24-0499.

45. 张智雄,李婕,邵田.以预印本为中心的盖茨基金会2025 OA政策研究及启示[J].中国科技期刊研究,2024,35(09):1240-1245.

46. 曹晓丽,李涵昱,张智雄.科技文献挖掘分析与服务标准体系建设研究[J].中国科技期刊研究,2024,35(10):1374-1383.

47. Yang Zhao, Mengting Zhang, Xiaoli Chen, Liangping Ding, Zhixiong Zhang. Early identification of scientific breakthroughs based on outlier analysis of research entities[J]. Journal of Data and Information Science, 2024, 9(4): 90-109.

48. 张智雄. 切实发挥科技文献在AI4S 中的知识底座作用[J].农业图书情报学报,2023,35(10):4-32.DOI:10.13998/j.cnki.issn1002-1248.23-0850.

49. 张智雄. 在人工智能时代贡献文献情报领域的智慧和方案[J].农业图书情报学报,2023,35(01):4-28.DOI:10.13998/j.cnki.issn1002-1248.23-0118.

50. L. Ding, G. Colavizza and Z. Zhang. Partial Annotation Learning for Biomedical Entity Recognition[J] IEEE Journal of Biomedical and Health Informatics. PP[2024-11-28].DOI:10.1109/JBHI.2024.3466294.

51. 李婕,张智雄,王宇飞. 构建面向实际应用的科技文献深度聚类引擎[C].中国国防科学技术信息学会第十六届学术年会.2024.8.

52. Yang Li, Mengting Zhang, Zhixiong Zhang, Yajiao Wang. Decoding the Essence of Scientific Knowledge Entity Extraction: An Innovative MRC Framework with Semantic Contrastive Learning and Boundary Perception[C]. 2024 ACM/IEEE Joint Conference on Digital Libraries (JCDL).

53. Mengting Zhang, Yajiao Wang, Yufei Wang, Zhixiong Zhang. Sentiment-Enhanced Opinion Sentence Recognition Using AgriBERT-SentiDPCNN and Multi-Opinion Summarization via LLMs for Agricultural Scientific Literature[C]. 2025 the 10th International Conference on Big Data Analytics (ICBDA). 2025.03(已录用)



获批发明专利


课题已获批发明专利6项。包括:

Responsive image
Responsive image
Responsive image
Responsive image
Responsive image
Responsive image


软件著作权


课题已申请相关软件著作权50项。包括:

Responsive image Responsive image Responsive image Responsive image