山东大学数字人文实验室AIGC开发新动向：文翰（WH）边疆古籍大模型-数字人文实验室

学术活动

山东大学数字人文实验室AIGC开发新动向：文翰（WH）边疆古籍大模型

2024年03月19日张思清、陈建红

文翰（WH）边疆古籍大模型，是一个基于古汉语典籍预训练模型的人工智能大语言模型（LLM）。

相比于大多数人工智能大语言适用于现代汉语及通用对话能力，文翰（WH）边疆古籍大模型专精于古汉语典籍，在通用现代汉语模型的基础上，结合十三经、二十四史等中国经典古籍数据训练模型的文言文处理能力，通过文本翻译、实体识别、文本摘要、文本标注、标点和词法分析等下游任务，继续微调模型的特殊领域技能，达到可以服务学术研究的水平。

作为山东大学数字人文实验室的开发项目，文翰（WH）边疆古籍大模型结合东亚数字人文团队的研究方向及专题学术资源，在东亚史、边疆史等文献数据上进一步优化调整，在保证模型的基本古文能力上，使其能够达到专业辅助专题科研任务的水准。古籍模型在支持现代汉语对话能力的基础上，拥有强大且专业的古文处理能力，可以在古籍专题文献整理、专业文本处理、历史文献智能化考辩、非定向学术探究等方面为科研人员提供强大的支撑，提升科研效率和质量。

文翰（WH）边疆古籍大模型成功部署后，将作为新一代的LLM文本处理方法，融合到数字人文实验室原有的数据处理平台，拓展传统深度学习NLP方法的能力和范围，提升实验室的技术水平，进一步催生全新一代的数智化科研成果。

上一条：数字边疆下一条：《新形势下中非外交关系研究》讲座成功举办