home list tags talk user rss

仿冒钓鱼网站识别

春天不是读书天,夏日炎炎好睡眠。秋去冬来春又到,收拾书包好过年

仿冒钓鱼网站识别

基本方案确定:
- 使用bigml
- 什么是treebag模型,变量重要性(最后面的条形图)怎么得到的?? - 使用朴素贝叶斯,非平衡SVM

系统设计与注意事项

数据存储: 暂且不考虑原始网页文档文件的再处理,所以只存储原始网页信息,
原始钓鱼网页:origin_phishing,新样本更新问题如何解决??,使用一个属性记录当前记录是第几次加入,每次新的记录都在此基础上加一,该属性从一开始,属性名为’kth’

do it

之前用过的mongodb的命令总结下来 ,done
有正常返回的网页,怎么判断是不是原始钓鱼还是替代的网页???
1. 析出正文,查看正文信息作为对比 ,先这样试试,结果怎样不确定,速度试试…
  1. 在util模块中加入方法,由html页面得到网页正文
    虽然不太愿意认同,不过可能只能手动标注了…哎
可信任证书获得的问题????
1. 判断是不是有没有使用https协议
baidu,index获得的信息

dfas / 2017-03-27
Published under (CC) BY-NC-SA in categories Life tagged with records