山东大学数字人文实验室AIGC开发新动向:文翰(WH)边疆古籍大模型

2024年03月19日张思清、陈建红

文翰(WH)边疆古籍大模型,是一个基于古汉语典籍预训练模型的人工智能大语言模型(LLM)。


相比于大多数人工智能大语言适用于现代汉语及通用对话能力,文翰(WH)边疆古籍大模型专精于古汉语典籍,在通用现代汉语模型的基础上,结合十三经、二十四史等中国经典古籍数据训练模型的文言文处理能力,通过文本翻译、实体识别、文本摘要、文本标注、标点和词法分析等下游任务,继续微调模型的特殊领域技能,达到可以服务学术研究的水平。


作为山东大学数字人文实验室的开发项目文翰(WH)边疆古籍大模型结合东亚数字人文团队的研究方向及专题学术资源,在东亚史、边疆史等文献数据上进一步优化调整,在保证模型的基本古文能力上,使其能够达到专业辅助专题科研任务的水准。古籍模型在支持现代汉语对话能力的基础上,拥有强大且专业的古文处理能力,可以在古籍专题文献整理、专业文本处理、历史文献智能化考辩、非定向学术探究等方面为科研人员提供强大的支撑,提升科研效率和质量。


文翰(WH)边疆古籍大模型成功部署后,将作为新一代的LLM文本处理方法,融合到数字人文实验室原有的数据处理平台,拓展传统深度学习NLP方法的能力和范围,提升实验室的技术水平,进一步催生全新一代的数智化科研成果。


上一条:数字边疆 下一条:《新形势下中非外交关系研究》讲座成功举办