RNN的Seq2Seq模型做命名实体识别

seq2seq 具有极强的时序能力,在自然语言处理(NLP)中是一个很强的模型,最近一段时间,在工程方面将该模型引入做命名实体识别(NER)也取得不错的效果。推荐G.Hinton的论文“Grammar as a Foreign Language”,讲述了如何用seq2seq做序列标注。

seq2seq 具有极强的时序能力,在自然语言处理(NLP)中是一个很强的模型,最近一段时间,在工程方面将该模型引入做命名实体识别(NER)也取得不错的效果。推荐G.Hinton的论文“Grammar as a Foreign Language”,讲述了如何用seq2seq做序列标注。
Continue reading “RNN的Seq2Seq模型做命名实体识别”

自然语言处理中做字符级embedding的一种检索思路

自然语言处理中字符级的embedding可以通过unicode的编码来做索引

自然语言处理中需要将字、词或句子做embedding之前,一般会将对象转成一个字典中的索引,比如

假如,要处理字符级的索引问题,建议使用unicode的方式,这样可以直接获取唯一的编码

在Python中通过ord函数实现:

ord=(u"吃")
# 21507

斯坦福“自然语言处理”课程

斯坦福的“自然语言处理”课程,将于3月12号正式开课,目前已经放出了第一批的视频及PPT等, 3月12日正式开课还包括算法分析,密码学,图模型及博弈论等,都是非常不错的课程。

斯坦福的“自然语言处理”课程,将于3月12号正式开课,目前已经放出了第一批的视频及PPT等, 3月12日正式开课还包括算法分析,密码学,图模型及博弈论等,都是非常不错的课程。

相关地址:https://www.coursera.org/nlp/auth/welcome