自然语言处理中做字符级embedding的一种检索思路

自然语言处理中需要将字、词或句子做embedding之前,一般会将对象转成一个字典中的索引,比如

假如,要处理字符级的索引问题,建议使用unicode的方式,这样可以直接获取唯一的编码

在Python中通过ord函数实现:

ord=(u"吃")
# 21507

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据