余弦相似性

余弦相似性

余弦相似性大家都非常熟悉,它是定义在向量空间模型(VSM)中的,定义如下:

其中,A、B为向量中间中的两个向量。


在使用它来做字符串相似性度量的时候,需要先将字符串向量化,通常使用词袋模型(BOW)来向量化。

举个例子如下: String1 = 'apple' String2 = 'app' ,则词包为{'a','e','l','p'},若使用0,1判断元素是否在词包中,字符串1、2可以转化为:

StringA = [1111] StringB = [1001] 。根据余弦公式,可以计算字符串相似性为:0.707

词袋模型工具