Segmentation du chinois

Après avoir concaténer les fichiers DUMPS de chinois, nous passons au traitement de la segmentation du texte. Pour le français, tout se passe bien avec letrameur. Mais  letrameur ne fonctionne pas bien pour traiter le chinois au niveau de la segmentation. Donc, il faut le réaliser à l’aide d’autre plateforme qui peut segmenter le corpus chinois. , J’ai essayé d’utiliser http://textanalysisonline.com/chinese-word-segmenter pour segmenter le chinois. Et on a obtenu le texte ségmenté ci-après:

Capture d’écran 2018-01-07 à 04.10.20.png

Mais vu que la fonction du segmenteur en ligne est très faible, nous proposons de segmenter le corpus chinois avec d’autres outils tels que Stanford Word segementer, Jieba (bégayer), LTP (language technology platform), etc. Après avoir fait des renseignement auprès du professeur et avoir consulté le blog ancien, j’ai fait plusieurs essais pour trouver le meilleur moyen de segmentation. Enfin, j’ai choisit Jieba (bégayer) pour traiter mon corpus. Si vous en avec besoin, veuillez trouver les informations de téléchargement et d’installation en accédant le lien suivant: https://github.com/fxsjy/jieba

Après l’installation de Jieba (bégayer), je suis allée sur le plateforme de Python et j’ai écrit un script comme suit:

Capture d’écran 2018-01-09 à 04.01.34.png

Le fichier ‘reculât-jieba.txt’  est le corpus segmenté. Considérons le texte suivant:

Capture d’écran 2018-01-09 à 04.21.28.png

Laisser un commentaire

search previous next tag category expand menu location phone mail time cart zoom edit close