春天不是读书天,夏日炎炎好睡眠。秋去冬来春又到,收拾书包好过年
仿冒钓鱼网站识别
- 基本方案确定:
- 什么是treebag模型,变量重要性(最后面的条形图)怎么得到的?? - 使用朴素贝叶斯,非平衡SVM
系统设计与注意事项
- 数据存储: 暂且不考虑原始网页文档文件的再处理,所以只存储原始网页信息,
原始钓鱼网页:origin_phishing,新样本更新问题如何解决??,使用一个属性记录当前记录是第几次加入,每次新的记录都在此基础上加一,该属性从一开始,属性名为’kth’
do it
- 之前用过的mongodb的命令总结下来 ,done
- 有正常返回的网页,怎么判断是不是原始钓鱼还是替代的网页???
- 析出正文,查看正文信息作为对比 ,先这样试试,结果怎样不确定,速度试试…
- 在util模块中加入方法,由html页面得到网页正文
虽然不太愿意认同,不过可能只能手动标注了…哎
- 在util模块中加入方法,由html页面得到网页正文
- 析出正文,查看正文信息作为对比 ,先这样试试,结果怎样不确定,速度试试…
- 可信任证书获得的问题????
- 判断是不是有没有使用https协议
- baidu,index获得的信息