The Text Encoding Initiative (简称:TEI)是由来自世界各的学术机构、科研项目及学者组成的一个非营利性会员制组织,主要开发和维护一套文本数字化编码标准(Guidelines)。该标准是一套机器可读的文本编码,主要使用在人文科学,社会科学和语言学。 自1994年以来,TEI Guidelines已广泛被图书馆,博物馆,出版商和学者应用于文本的在线研究,教学和资料的保存的工作之中。除了这套Guidelines,该协会还提供了的多种资源和培训活动用以TEI的学习、TEI的项目开发、TEI出版物的发表及适应TEI的程序开发。
TEI协会用了很大篇幅解释了TEI和Guideline的区别,其实业界常常以TEI来表示文本编码格式,因此,我们可以听到”如何将一个XHTML文本转换为TEI格式?”这样的问题。之后的文章中如果不着重说明“TEI协会”,基本都指TEI编码格式。
对于想学TEI 的大家,也许怎么开始是一个小小的挑战,下面的网址提供了关于TEI的一些信息,包括TEI Guidelines的概况、XML和文本标签的基本概念、TEI系统中schemas(也称“ODD”)的写入和档案化的指导。英文好的朋友可以直接进入下面网址开始学习TEI。
http://www.tei-c.org/Support/Learn/index.xml
另外也推荐由谢筱琳、黄韦宁翻译的《TEI使用指南:运用TEI处理中文文献》(繁体版),以下是链接:
http://www.tei-c.org/Support/Learn/TEI-ChinLoc-2ndPrintEd.pdf
简单的自我介绍一下,自2013年起,我加入TEI-CMC小组,主要负责网络通信文本的法语语料库的建模及归档处理,这项工作属于TEI的扩展,以下是我们小组的WIKI:
http://wiki.tei-c.org/index.php/SIG:Computer-Mediated_Communication