《维基百科讨论页面的处理手册》是从《CoMeRe》的项目《Wikiconflits》整理出来的一份操作手册,它介绍了为何分析,如何从维基百科的DUMP中提取相关页面,并如何分析页面中的Wikitext(维基文本),最后转换成项目要求的最终TEI格式。目前版本V2.0, 在1.0版本上添加了转换TEI的内容。本手册语言为法文。
手册法文介绍:
“Wikiconflits, un corpus extrait de Wikipédia : principe et méthode d’élaboration”, Le groupe CoMeRe-nouvelles-acquisitions-Wikipédia vise à constituer un corpus de pages Wikipédia qui sera adjoint au corpus CoMeRe afin d’améliorer sa représentativité. Son choix s’est porté autour de l’observation de pages ayant suscité des discussions conflictuelles autour de controverses dans les champs des sciences et des techniques. Dans une première partie, le groupe explique sa méthode de sélection des discussions conflictuelles. Dans les parties suivantes, le groupe CoMeRe-LRL expose la méthode de constitution du corpus en fonction des critères précédemment retenus et la façon de les transformer en TEI. Ce rapport se termine par la présentation de l’outil WikiTool développé lors des traitements. Mis à disposition sous licence libre il permet d’extraire des pages dans les fichiers de type Dump de Wikipedia.
CoMeRe网站(法文) http://comere.org/
下载: cmr-wikiconflits-tei-v2-manuel