亚洲色偷偷色噜噜狠狠99网-国产麻豆天美果冻无码视频-国产婷婷色综合AV蜜臀AV-国产av人人夜夜澡人人爽

網(wǎng)站建設(shè) 網(wǎng)絡(luò)推廣 網(wǎng)站營銷 軟件開發(fā) 案例展示 新聞資訊 關(guān)于我們 聯(lián)系我們
合肥拓野網(wǎng)絡(luò)公司新聞資訊
網(wǎng)站布局之TF-IDF算法
來源: | 發(fā)布日期:2018-05-05 次 | 人氣:2278

網(wǎng)站布局之TF-IDF算法,說白了在我理解來,這個算法就是通過一個的數(shù)學(xué)計算,來確定每個詞在文章中的權(quán)重,從而得到一篇文章的關(guān)于詞的帶權(quán)重的向量,知道了這個以后就好辦了,之后什么文章關(guān)鍵字提取、概述、不同的文章之前的相似性比較都引刃而解了。



求一個詞的權(quán)重就用到TF-IDF算法,其實TF-IDF算法是分為TF(Term Frequency,縮寫為TF)與IDF(Inverse Document Frequency,縮寫為IDF)的計算。



說起來也簡單,TF就是這個詞在文章中的詞頻,出現(xiàn)的次數(shù)比上文章的總次數(shù)或者出現(xiàn)次數(shù)最高的詞的個數(shù)。而IDF則是表示TF-IDF算法分母上加一是為了防止分母為零。


TF-IDF


這個數(shù)學(xué)的表達(dá)式也符合情理,如果關(guān)鍵字(除去“的”、“為了”之類的去除字)在越多的文檔中出現(xiàn),它在本篇文章中的權(quán)重自然就低了,舉個簡單的例子:給你一個關(guān)鍵字計算機,你一點也不知道這貨表達(dá)的意思,因為(從這個算法角度講)它在太多的文章中出現(xiàn),但是如果你的關(guān)鍵字為0day就不一樣了,包含它的文檔數(shù)遠(yuǎn)遠(yuǎn)小于包含關(guān)鍵字“計算機”的文檔數(shù)。由此,如果在同一篇文章里,如果“0day”與“計算機”的TF(詞頻)相同,IDF就可以保證“0day”的權(quán)重較高了。



基本的算法就是這樣了,其實很簡單,但是這個算法是基于這樣一個前提,關(guān)鍵詞越重要,出現(xiàn)的頻率越高。同時忽略了詞出現(xiàn)位置的影響,所以這個算法存在漏洞。



 
上一篇:網(wǎng)絡(luò)安全基本知識
下一篇:合肥拓野網(wǎng)絡(luò)公司教大家網(wǎng)絡(luò)劫持的定義
熱門資訊
(2020-06-24)2020端午節(jié)放假通知 (2018-12-21)移動端seo優(yōu)化和排名技術(shù)怎么實現(xiàn)? (2019-01-11)網(wǎng)站站內(nèi)優(yōu)化是非常重要的一個環(huán)節(jié),站內(nèi)SEO優(yōu)化中如何利用好... (2013-09-09)番茄花園作者被判三年半微軟警告win7盜版 (2019-01-21)網(wǎng)頁設(shè)計需要注意的七個問題
推薦資訊
(2013-11-08)IBM宣布推開放Linux套裝軟件挑戰(zhàn)Windows 7 (2014-06-12)阿里巴巴信用支付業(yè)務(wù)是否會沖擊銀行消費信貸? (2014-05-09)報告稱六成IT家電企業(yè)使用CN域名 (2013-03-29)拓野網(wǎng)絡(luò)指出錯誤的堆積關(guān)鍵詞有哪些 (2013-03-26)“2009中國互聯(lián)網(wǎng)市場年會”3月召開
電商解決方案-專業(yè)網(wǎng)絡(luò)營銷部署咨詢-成功案例分享-個性定制服務(wù)咨詢
網(wǎng)站建設(shè)
營銷套餐 PC端 移動端 域名空間郵箱
網(wǎng)絡(luò)推廣
搜狗競價 網(wǎng)站優(yōu)化
網(wǎng)站營銷
微信公眾號 小程序 朋友圈推廣
軟件開發(fā)
定制軟件 手機APP
案例展示
精品案例
網(wǎng)絡(luò)快訊
公司新聞 行業(yè)資訊 媒體報道 網(wǎng)絡(luò)知識
關(guān)于我們
公司簡介 企業(yè)文化 團(tuán)隊風(fēng)采 發(fā)展歷程
聯(lián)系我們
聯(lián)系方式 人才招聘 問題反饋 付款方式
Copyright  ©  2008 - 2018  合肥拓野網(wǎng)絡(luò)科技有限公司, All Rights Reserved 皖I(lǐng)CP備06009261號-4