网站分类 Tips

layout: post
title: 网站分类项目中一些关键信息
categories:

关于训练集和测试集的一些信息

beautifulsoup 的问题？？

mongodb说明

如果能够判断日文网页，则翻译成中文，再进行操作
[\u3040-\u309F\u30A0-\u30FF]
[\u4e00-\u9fa5]
一个中文一个日文使用这种正则匹配的方式进行判断前，必须将
如果1行不通，则使用原来标注的网页进行模型优化，成人网站文本分类就到此为止，
如果日文长度大于50，翻译合并,日文中的中文用使用的正则匹配方式是用中文匹配的，
之后不能直接用百分比来判断特征词在总词数的占比，需要使用特征词的权重，所谓选取的特征词，实际上是默认非特征词在两类中出现的概率相等，实质上对在正常网站偏好出现的词是不公平的，但是凭经验看，正常词出现在两类词中是相等的（尤其是停用词）而这种词太多，不容易控制，概率也很小，对于样本集很少的情况下容易误导分类器，所以只选用特征词，在计算权重的时候非特征词的权重应该好好琢磨一下，直接使用训练出的词凭据作为权重还是不可靠,特定的词权重过大,导致对结果影响过大,有的权重达到四千多,开根号也不好控制
为什么在特征词特别少到几乎(或就是)零的情况下加权特征词密度还仍然很大呢??
计算特征加权密度时,如果该词在合法类中出现的较多就不参与计算,否则计算差值的对于2的对数,之后求和
先由自动标注的样本选出训练集，结合之前的集合，还有测试集合

dfas / 2017-03-09
Published under (CC) BY-NC-SA in categories tagged with