短信過濾系統(tǒng)將黑白名單技�(shù)與Balanced Winnow 算法相結(jié)�,實�(xiàn)對垃圾短信的過濾。采用CHI 特征提取算法并對�(quán)重計算方法進行改�� 同時提出了去除訓練樣本中野點的想�� 通過判定去除野點� 減緩在訓練過程中出現(xiàn)的抖動現(xiàn)�。實驗表明這種改進對于提高訓練速度及提高短信過濾的性能均有很好的作��
手機短信以其短小、迅�、簡便、價格低廉等�(yōu)點成為一種重要的通信和交流方�� 受到眾多人士的青睞。然�� 手機短信與郵件一樣存在著垃圾信息問題�
目前� 垃圾短信過濾主要有黑名單過濾、關(guān)鍵詞過濾和基于文本分類的�(nèi)容過濾等方式。黑名單過濾和關(guān)鍵詞過濾方式能快速過濾垃圾短信, 但這兩種過濾方式實�(zhì)是基于規(guī)則的過濾� 雖然在一定程度上阻擋了一些垃圾短�� 但規(guī)則的方法需要更多的用戶自定義設(shè)�,很容易被反過濾?;谖谋痉诸惖亩绦胚^濾采用常見的分類算法� 如樸素貝葉斯、SVM、神�(jīng)�(wǎng)�(luò)�。黎� 等人將貝葉斯分類�(yīng)用到J2ME 模擬�(huán)境中成功地過濾了中獎短信和祝福短信。浙江大學的金展、范晶等 將樸素貝葉斯和支持向量機�(jié)�� 解決了傳�(tǒng)垃圾短信過濾系統(tǒng)短信特征和內(nèi)容未能得到及時更新而導致過濾性能降低的問題。王忠軍將基于樸素貝葉斯短信過濾算法與基于最小風險貝葉斯算法進行了實驗分析和比較,結(jié)論是基于最小風險的短信過濾算法具有較好的性能�
然而, 短信過濾的準確率依賴于其訓練樣本的數(shù)量及�(zhì)�� 這些分類算法需要經(jīng)過訓練學習建立分類器模型,因此在速度上不能很好地滿足短信過濾實時性的要求�
從現(xiàn)有技�(shù)上來�� 垃圾短信的過濾在準確率和效率方面仍然不能滿足�(xiàn)實需��
Winnow 算法是在1987 年由Nick LittleSTONe 提出并對可行性做了嚴格證明的線性分類算法。當時的目標是想找到一種時空復雜度僅僅與分類對象相�(guān)屬性相�(guān)的數(shù)量呈線性相�(guān)的算�。平衡Winnow 算法是對基本W(wǎng)innow 算法的一種改進, 該算法具有過濾速度�、性能�、支持反饋更新的�(yōu)�� 在信息過濾領(lǐng)域有很好的應(yīng)用前�� 尤其適合于對實時性要求較高的短信過濾系統(tǒng)�
特征提取的方法目前也有很�� 常用的特征選取方法有� 文檔頻率DF(Document Frequency) 、信息增益IG(Information Gain) 、互信息MI(Mutual Information) 、�2�(tǒng)計等�
將分詞后的詞作為候選特征� 然后使用特征提取算法從中提取出對分類最有用的一些特�� 去除對分類貢獻不大的候選特征� 以降低特征的維數(shù)。其中�2的主要思想是認為詞條與類別之間符合χ2分布。�2 �(tǒng)計量的值越�� 特征項和類別之間的獨立性越�、相�(guān)性越�� 即特征項對此類別的貢獻越�。�2 是一個歸一化的�� 該方法比其他方法能減�50%左右的詞匯� 具有分類效果好的�(yōu)�。本文中采用χ2�(tǒng)計進行特征提取�
但不是簡單地令特征項的權(quán)重xi=1 �0 � 而是令xi=f(χ2)�0 � 這里χ2 特指特征對應(yīng)的�2 �(tǒng)計值, 對應(yīng)�(guān)系f 根據(jù)實際情況而定。實驗中(n 是一個正整數(shù)� 取n=4) 。實驗表明比用布爾權(quán)重表示效果要��
1.3 文本向量表示目前�(yīng)用較多的是向量空間模型VSM (VectorSpace Model) � 文中用VSM 將一條短信表示為(W1,W2,…,Wk,�,Wn)的向量形�。其中:Wk(k=1 �2 ,�,n)為第k 個特征的�(quán)重,n 為選定的特征�(shù)�
Winnow 算法是二值屬性數(shù)�(jù)集上的線性分類算法。線性分類問題中表示分類界限的超平面等式如下�
w0α0+w1α1+w2α2+�+wkαk=0 � 其中:�0,�1,�,αk分別是屬性的值;w0,w1� …,wk是超平面的權(quán)�。如果其值大�0 � 則預(yù)測為類否則為第二��
Winnow 算法是錯誤驅(qū)動型的分類算�� 即當出現(xiàn)錯分的實例時才更新權(quán)值向量。設(shè)定兩個學習系�(shù)α 和�(其中α�1,β<1) � 通過將權(quán)值乘以參�(shù)α( 或�) 來分別修改權(quán)值�
維庫電子�,電子知識,一查百��
已收錄詞�161751�