仿冒钓鱼网站识别


春天不是读书天,夏日炎炎好睡眠。秋去冬来春又到,收拾书包好过年

仿冒钓鱼网站识别

  1. 基本方案确定:
    • 什么是treebag模型,变量重要性(最后面的条形图)怎么得到的?? - 使用朴素贝叶斯,非平衡SVM

系统设计与注意事项

  1. 数据存储: 暂且不考虑原始网页文档文件的再处理,所以只存储原始网页信息,
    原始钓鱼网页:origin_phishing,新样本更新问题如何解决??,使用一个属性记录当前记录是第几次加入,每次新的记录都在此基础上加一,该属性从一开始,属性名为’kth’

do it

  1. 之前用过的mongodb的命令总结下来 ,done
  2. 有正常返回的网页,怎么判断是不是原始钓鱼还是替代的网页???
    1. 析出正文,查看正文信息作为对比 ,先这样试试,结果怎样不确定,速度试试…
      1. 在util模块中加入方法,由html页面得到网页正文
        虽然不太愿意认同,不过可能只能手动标注了…哎
  3. 可信任证书获得的问题????
    1. 判断是不是有没有使用https协议
  4. baidu,index获得的信息
dfas /
Published under (CC) BY-NC-SA in categories Life  tagged with records