Après avoir concaténer les fichiers DUMPS de chinois, nous passons au traitement de la segmentation du texte. Pour le français, tout se passe bien avec letrameur. Mais letrameur ne fonctionne pas bien pour traiter le chinois au niveau de la segmentation. Donc, il faut le réaliser à l’aide d’autre plateforme qui peut segmenter le corpus chinois. , J’ai essayé d’utiliser http://textanalysisonline.com/chinese-word-segmenter pour segmenter le chinois. Et on a obtenu le texte ségmenté ci-après:
Mais vu que la fonction du segmenteur en ligne est très faible, nous proposons de segmenter le corpus chinois avec d’autres outils tels que Stanford Word segementer, Jieba (bégayer), LTP (language technology platform), etc. Après avoir fait des renseignement auprès du professeur et avoir consulté le blog ancien, j’ai fait plusieurs essais pour trouver le meilleur moyen de segmentation. Enfin, j’ai choisit Jieba (bégayer) pour traiter mon corpus. Si vous en avec besoin, veuillez trouver les informations de téléchargement et d’installation en accédant le lien suivant: https://github.com/fxsjy/jieba
Après l’installation de Jieba (bégayer), je suis allée sur le plateforme de Python et j’ai écrit un script comme suit:
Le fichier ‘reculât-jieba.txt’ est le corpus segmenté. Considérons le texte suivant: