在這種概率潛在語(yǔ)義分析模型中,多義詞被歸入不同的主題下,而同義詞被歸入同一主題下。
這樣可以避免同義詞和多義詞對(duì)文本相似度計(jì)算的影響。
然而,概率潛在語(yǔ)義分析模型的參數(shù)隨著文檔數(shù)量的增加而線性增長(zhǎng)。
很容易出現(xiàn)過(guò)擬合和泛化不良。
這種情況很大程度又是因?yàn)榫S度爆炸。
因?yàn)檫^(guò)擬合只在高維空間中預(yù)測(cè)相對(duì)少的參數(shù)和低維空間中預(yù)測(cè)多參數(shù)這兩種情況下發(fā)生。...