立即捐款

南方周末: 搜索引擎與作弊網站的戰爭

節錄自南方周末

…反spam與spam間的較量
  搜索引擎第一輪反擊是,在排序時更多地依賴網頁正文而不是 meta tag。但spam們以進為退,在正文中大量使用與網頁背景相同顏色的關鍵字,在圖片注釋文字中塞進關鍵字,在網頁代碼加入“看不見的注釋”。 搜索引擎又開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字。
  搜索引擎的spider(蜘蛛)在訪問任何網站時都會自報身份,並且查閱網站的訪問規定,按照各網站的規矩來辦事。於是,SEO隨之製作兩個網站,一個專供網友訪問,一個專供搜索引擎訪問,“各取所需”,這種方法叫做cloaking(外套)。
  在國外,其實早在上世紀SEO SPAM便已成大熱門。據1998年的一次調查,在主要的搜索引擎上搜索當時的熱門辭彙“Monica Lewinsky”(莫妮卡•萊溫斯基),各搜索引擎首頁居然有40%的搜索結果是垃圾網站。
   搜索引擎只能去尋找新的相關性排序依據,或作弊者不能控制的排序依據,即到網站以外去尋找排序的依據。於是,出現了超鏈分析,出現了Pagerank。 超鏈分析的原理即是看網頁間的同類鏈結點作為重要依據,此後,又根據各網站的權重等來綜合分析等。這樣,gov(政府網站)和edu(教育網站)通常被賦 予較高的排名,來自gov和edu的超鏈也有更高的價值。
  但spam們又據此做大量的網站,準備大量的鏈結,哪個客戶出錢,所有的網頁都給它一個鏈結。這種SEO方法被稱為link farm。而反spam的做法就是憑發現的link farm而認定此即為作弊網站。
  據某論壇上某個站長透露,目前,在中國已經形成了一個巨大SEO SPAM市場,據反spam專家王某的估計,中國以此為生的人數大約在數十萬,其網站更是高達數百萬計。在互聯網上,有眾多SEO網站,它們打著各種旗號來“指導”人們作弊,並在上面談心得體會。
   這些SEO SPAM們“賴以生存”的方式主要是以下兩種:1.利用搜索引擎引來網站流量帶動的廣告收入;2.販賣通過對搜索引擎作弊獲得的較高的關鍵 詞排名。網站流量以獨立IP計算,根據站長的透露,自己每日5000個獨立IP的訪問量,僅加入了電影寬頻等3家的廣告聯盟,月入已達1300元左右。而 一個被百度收錄2萬左右網頁的做流量的網站,每日IP很快就能漲到4萬元。
  
  前赴後繼的spam
  SEO SPAM的破壞性是相當巨大的,它不僅直接破壞了每日數億計的用戶搜索體驗———這是搜索引擎網站賴以生存的關鍵所在,同時也破壞了搜索引擎獲得收益的主要來源———競價排名以及相關廣告。
  據有關統計資料,在所有網頁中,摒除無效網頁,作弊網頁占到整個網頁的10%;在某些熱門關鍵字的搜索中,其前50篇網頁,垃圾網站的網頁所占比例甚至可以高達80%以上。
  在中國,Google一直以謙謙君子的形象示人,但它也有發怒的時候。
  2005年3月26日淩晨4點,忍無可忍的Google突然發力,將一大批spam站點清除。Google的頁面恢復了以前的乾淨。
   但事隔不到4個月,垃圾網站的網頁又如潮水般湧來。據來自Google的內部消息,Google也一直在致力於反spam,但建立一個完整的反垃圾網站 系統是一個漫長的過程,在中國,反垃圾網站的人才更是奇貨可居。在採訪百度時,百度即不願披露反垃圾網站專家的姓名,“因為這是百度最為寶貴的人才之 一”。…
  
全文