CoMeRe(网络通信语料库)项目是为了在2014年将来自通信网络的语料整合并创建一系列相关的语聊库。关注的语料种类是非常多样性的:单一或多元的、同步或异步的。
CoMeRe a pour objectif, à l’horizon 2014 ,de créer un noyau de corpus de communication médiée par les réseaux (Computer Mediated Communication – CMC) en français. Chaque corpus rassemblera un ensemble de conversations intervenant sur la Toile et les réseaux. Nous nous intéressons à une variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc.
项目介绍
项目隶属于法国国家科学研究中心(CNRS)
14名来自法国各个实验室的网络通信语料库的研究员及自然语言处理工程师。
纯文本在经过标注后才能有效地被解析处理,就像HTML文本一样,这个项目是基于《TEI标注语言》,建立一个目前空缺的网络通信语料库参考标准。
网络通信语料库指的是“通过网络或者电子信息的方式传播通信的文本”,其包括论坛、博客、微博、短信等。
来自欧洲各国的研究所组成了一个TEI网络通信语料库组 (TEI-CMC),已经在TEI-SIG成立,CoMeRe项目参与其中,并且占非常重要的位置。
小组成员:
- Michael Beißwenger – TU Dortmund University
- Thierry Chanier – Université Blaise Pascal, Clermont-Ferrand
- Isabella Chiari – Università “La Sapienza”, Rome
- Maria Ermakova – Berlin-Brandenburg of Sciences and the Humanities
- Maarten van Gompel – Radboud University Nijmegen
- Iris Hendrickx – Radboud University Nijmegen
- Axel Herold – Berlin-Brandenburg of Sciences and the Humanities
- Henk van den Heuvel – Radboud University Nijmegen
- Lothar Lemnitzer – Berlin-Brandenburg of Sciences and the Humanities
- Angelika Storrer – TU Dortmund University
CoMeRe网站: http://comere.org
更多详情留言也可以联系:kun.jin@univ-bpclermont.fr