自然语言处理中做字符级embedding的一种检索思路

自然语言处理中字符级的embedding可以通过unicode的编码来做索引

自然语言处理中需要将字、词或句子做embedding之前,一般会将对象转成一个字典中的索引,比如

假如,要处理字符级的索引问题,建议使用unicode的方式,这样可以直接获取唯一的编码

在Python中通过ord函数实现:

ord=(u"吃")
# 21507