Minority Languages Word Segmentation Technology Evaluation Dataset MLWS2021

Published:

Please cite:
@inproceedingsXiaobing2022mlws,
title={Minority Languages Word Segmentation Technology Evaluation Dataset MLWS2021},
author={Xiaobing Zhao, Lu Gao, Dingguo Gao, Wugedele Bao, Mieradilijiang Maimaiti, Yang Liu ,Zhijie Cai, and Yuan Sun},
booktitle={China Scientific Data},
year={2022},
}

Abstract

依据蒙古文、藏文和维吾尔文词汇的构词规律和特点,制定适合计算机信息处理的蒙古文、藏文和维吾尔文分词评测标准,构建蒙古文、藏文和维吾尔文的分词标注语料,形成标准评测数据集(MLWS2021), 为解决自动分词、词性标注、信息检索、语料库构建等研究课题提供依据。 MLWS2021共包含2.5万句藏文、6.5万句蒙古文、6.5万句维吾尔文。 本评测数据集将面向社会,提供免费评测服务,逐步建成权威的少数民族语言分词技术评测平台,推动少数民族语言信息处理技术的发展。

[PDF Chinese Paper]