W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果.wi 是一个词,P(wi)表示wi的出现的概率.在大规模语料库训练的基础上,根据大数定理[8],即:在大样本统计的前提下,样本的频率接近于其概率值.所
W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果.wi 是一个词,P(wi)表示wi的出现的概率.在大规模语料库训练的基础上,根据大数定理[8],即:在大样本统计的前提下,样本的频率接近于其概率值.所
W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果.wi 是一个词,P(wi)表示wi的出现的概率.在大规模语料库训练的基础上,根据大数定理[8],即:在大样本统计的前提下,样本的频率接近于其概率值.所以P(wi)的极大似然估计值[9]等于词频,有:
P(wi) ≈ki /(k1+k2+k3+...+km)
(其中ki为wi在训练样本中出现的次数)…………………………②
----------------------------
谁能给讲讲啊,我看不懂哦
P(wi) ≈ki /(k1+k2+k3+...+km)
这是为什么啊?
W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果.wi 是一个词,P(wi)表示wi的出现的概率.在大规模语料库训练的基础上,根据大数定理[8],即:在大样本统计的前提下,样本的频率接近于其概率值.所
哪句话看不懂?在我看来书上已经讲的很清楚了,看不懂就联系前后去理解,如果某句话看不懂可以提出来,如果都看不懂谁也没办法.
补充,这就是根据前一句话“在大规模语料库训练的基础上,根据大数定理[8],即:在大样本统计的前提下,样本的频率接近于其概率值.所以P(wi)的极大似然估计值[9]等于词频”来的啊,
ki是wi在样本中出现的次数,其他的k1-km就是别的词出现的次数了,相加就是整个里面有多少词嘛.wi出现次数除以总词汇量就是wi的频率呀.
wefd