项目中遇到的一些问题,记录

webclasy:

执行项目文件是遇到相对路径时会按照当前的项目入口文件的地址来处理相对路径，eg：之后补充
mongodb集合设计问题
1. 尽可能抽象，放入一个大集合，关键存储信息的字段可以作为抽象集合的一个属性，便不用担心扩展性问题
2. 经过测试，mongodb中
  skip()函数起始地址为一，也就是说，skip(k)意味着跳过前面k条记录进行查询

常用配置问题

域名相似度
1. 域名主干相似度:levenshtein相似度(参见百度百科),回头理解TODO
  1. 使用的ｃ++代码
  2. python 使用ctypes调用c编译后的.so共享库函数,reference,使用c++会麻烦很多,需要在源文件中使用extern等声明
  3. 将python类型转化为对应的cpp类型,how
2. 域名相关信息相似度:暂定使用jaccard系数, 聚类过程中,记录下与该域名最相似的k个域名,
相似度计算维度:
1. name主干相似度
2. 类型一致的属性合并计算jaccard系数,(如注册人,管理人,技术人,同理,电话)
3. 如何使用scikit-learn实现??
  1. ???
聚类算法选择:
1. K-means,scikit-learn,unequal variance<-> equal variance;unevenly sized??TOTO
2. Kmeans 不能实现,考虑rock算法
设计方面
1. mongodb存储中间信息
  1. 有哪些中间信息???
    1. 所有的域名对象,
    2. 最相关的k个信息,
  2. 倒排表??
评估标准:

dfas / 2017-02-27
Published under (CC) BY-NC-SA in categories Programming tagged with records