余弦相似性
余弦相似性
大家都非常熟悉,它是定义在向量空间模型(VSM)中的,定义如下:
其中,A、B
为向量中间中的两个向量。
在使用它来做字符串相似性度量的时候,需要先将字符串向量化,通常使用词袋模型(BOW)
来向量化。
举个例子如下: String1 = 'apple' String2 = 'app'
,则词包为{'a','e','l','p'}
,若使用0,1
判断元素是否在词包中,字符串1、2
可以转化为:
StringA = [1111] StringB = [1001]
。根据余弦公式,可以计算字符串相似性为:0.707