【專利類型】外觀設(shè)計(jì)【申請人】上海稚宜樂商貿(mào)有限公司【申請人類型】企業(yè)【申請人地址】200050上海市長寧區(qū)延安西路1303號9層K室【申請人地區(qū)】中國【申請人城市】上海市【申請人區(qū)縣】長寧區(qū)【申請?zhí)枴緾N200630035883.6【申請
【摘要】 本發(fā)明涉及一種網(wǎng)頁重復(fù)內(nèi)容過濾方法,包括文件服務(wù)器、網(wǎng)頁內(nèi)容提取服務(wù)器、網(wǎng)頁過濾服務(wù)器、爬蟲服務(wù)器。與現(xiàn)有技術(shù)相比,本發(fā)明有效的遏制利用拷貝別人的作品來謀求利益的行為,而且減少了大量重復(fù)的信息,使搜索結(jié)果更精簡,提高了用戶的搜索效率,同時也保護(hù)了原作者的版權(quán)不受肆意侵犯。 【專利類型】發(fā)明申請 【申請人】上海新納廣告?zhèn)髅接邢薰?【申請人類型】企業(yè) 【申請人地址】200050上海市長寧路1027號42F 【申請人地區(qū)】中國 【申請人城市】上海市 【申請人區(qū)縣】長寧區(qū) 【申請?zhí)枴緾N200610028059.7 【申請日】2006-06-22 【申請年份】2006 【公開公告號】CN101093485A 【公開公告日】2007-12-26 【公開公告年份】2007 【IPC分類號】G06F17/30; G06F21/00; G06F21/10 【發(fā)明人】胡創(chuàng)義; 金駿 【主權(quán)項(xiàng)內(nèi)容】1.一種網(wǎng)頁重復(fù)內(nèi)容過濾方法,其特征在于,包括文件服務(wù)器、網(wǎng)頁內(nèi) 容提取服務(wù)器、網(wǎng)頁過濾服務(wù)器、爬蟲服務(wù)器,該方法包括以下步驟: a.爬蟲服務(wù)器把從網(wǎng)頁抓取下來的數(shù)據(jù)發(fā)送到網(wǎng)頁內(nèi)容提取服務(wù)器; b.網(wǎng)頁內(nèi)容提取服務(wù)器分析來自爬蟲服務(wù)器的數(shù)據(jù),把內(nèi)容提取出來, 并且使用哈希算法對所提取的內(nèi)容進(jìn)行哈希獲得哈希碼,然后把哈希碼和內(nèi) 容、抓取的時間等信息一起存入放到文件服務(wù)器; c.網(wǎng)頁過濾服務(wù)器分析內(nèi)容服務(wù)器里面的信息,對每個由步驟b中獲得 的哈希碼出現(xiàn)沖突的網(wǎng)站中出現(xiàn)沖突的數(shù)量,對沖突的數(shù)量和該網(wǎng)站的網(wǎng)頁數(shù) 量設(shè)定一個閥值,如果一個網(wǎng)站的沖突的數(shù)量和該網(wǎng)站的網(wǎng)頁數(shù)量高于該閥 值,則直接通知爬蟲服務(wù)器,禁止該網(wǎng)站,并過濾掉該網(wǎng)頁的所有內(nèi)容,如果 低于該閥值而且抓取的時間較早,則提高該網(wǎng)頁的重要性,否則降低該網(wǎng)頁的 重要性或過濾掉。 【當(dāng)前權(quán)利人】上海新納廣告?zhèn)髅接邢薰?【當(dāng)前專利權(quán)人地址】上海市長寧路1027號42F 【專利權(quán)人類型】有限責(zé)任公司 【被引證次數(shù)】20 【被他引次數(shù)】20.0 【家族被引證次數(shù)】20
未經(jīng)允許不得轉(zhuǎn)載:http://www.sg012.cn/1775453917.html
喜歡就贊一下






