资讯新闻

反垃圾攻防日志:智能内容分析给垃圾邮件打分

2005-10-13 16:04:08作者: 互联网

    263的同域认证技术能够将那些通过MX服务器接收下来的、却伪装成同域用户的垃圾邮件及时捕获、并过滤出来。至此,前三期我们谈的都是如何根据地址(或者说信封、邮戳)来分辨垃圾邮件的方法。那么从本期开始,我们将深入垃圾邮件的内部,剥开它们更狡猾的伪装,再来看看263反垃圾系统是如何利用智能内容分析技术来识破它们的——

  周一上午。
 
  263反垃圾攻防实验室里一片繁忙。中秋结束、临近国庆假期又有一批垃圾制造者利用老友节日问候等形式发送垃圾信件,实验室的技术人员都严阵以待,从内容上严把“反垃圾”闸门。

  针对内容,263有三重过滤系统来拦截垃圾邮件。其中第一重是网关,也就是根据关键字来进行粗略的筛选。这种方法比较武断,只要出现认为是垃圾邮件的关键字,就直接被封杀了。这种技术比较简单,一般的邮件服务商都在使用,但基本可以过滤掉93%的垃圾邮件。

  263的技术优势在于第二重——智能内容分析技术。

  Tony挠了挠头,试图寻找一种通俗的语言来向我描述难以理解的技术概念:“智能分析技术就是根据垃圾邮件的一些内容所呈现的特征来进行判断的一种识别方法,比如主题、内容、格式、图片、段落和关键字等信息技术特征,是一种综合的手段。”看我一脸困惑,他接着解释道,“内容和语义的过滤分析不是一个绝对的判断,不能靠一两个关键字就完成过滤,比如,邮件里出现了‘法轮功’这个词,但你不能因此就把它打入垃圾邮件之列,还需要根据整封邮件的语义来综合分析。智能分析技术的难点正在于此。”

  “简单地说,智能分析就如同一个打分系统。比如,如果‘法轮功’在这封邮件中出现了一次,我们就给它计一分;又出现了一个‘护法’之类语义相关的词或者图片就再多加一分……如此累计到一个特定的分值分,就可以断定这是一封垃圾邮件了。这样一来,经过综合分析判断的智能分析过滤后,拦截的准确率大概能达到85%以上。”

  那么,垃圾邮件的种类和内容如此庞杂,这些关键词又是从哪里来的呢?能否适应时刻变化中的垃圾邮件形式呢?原来,智能内容分析技术之所以能够智能地识别垃圾邮件,是由于其背后有一套庞大的、并且具有自学习功能的垃圾样本库。那么,这个垃圾样本库是如何不断提高自身智能分析的准确率呢?敬请关注下期内容:《智能分析:样本库的收集》

  “反垃圾”攻防实验室友情提示:网关只能武断地过滤掉一些“道行”较浅的垃圾邮件。而对于那些老奸巨滑的垃圾邮件来说,263的智能内容分析技术则可以做到棋高一招。

京公网安备 11010502039920号