项目中遇到的一些问题,记录


工程中遇到的一些问题

webclasy:

  • 执行项目文件是遇到相对路径时会按照当前的项目入口文件的地址来处理相对路径,eg:之后补充

  • mongodb集合设计问题

    1. 尽可能抽象,放入一个大集合,关键存储信息的字段可以作为抽象集合的一个属性,便不用担心扩展性问题
    2. 经过测试,mongodb中
      skip()函数起始地址为一,也就是说,skip(k)意味着跳过前面k条记录进行查询

常用配置问题

  • 只有在底层才将相对地址转化为绝对地址,抽象层全部使用相对地址,
  • skip()函数起始地址为一,也就是说,skip(k)意味着跳过前面k条记录进行查询
    用方法来实现,如何实现通用的skip,limit方法,覆盖普通情况???
  • 设计时应该尽量有默认值,而不是不存在就不设置该属性,总是应该设置默认值

  • 对比对比mysql,什么场景MongoDB更适用??参考
    1. 更高的写入负载
    2. 高可用性
    3. 数据量很大或者未来会变得很大(mongodb内建了多种数据分片,可以很好的适应大数据量的需求)
    4. 基于位置的数据查询 (mongoDB 支持二维空间索引,因此可以快速以及准确的从指定位置获取数据)
    5. 表结构不明确,且数据在不断的变大, (mongoDB 是文档型数据库,结构要求不是那么严格)
    6. 没有DBA支持,

几个实体的聚类模块

  1. 域名相似度
    1. 域名主干相似度:levenshtein相似度(参见百度百科),回头理解TODO
      1. 使用的c++代码
      2. python 使用ctypes调用c编译后的.so共享库函数,reference,使用c++会麻烦很多,需要在源文件中使用extern等声明
      3. 将python类型转化为对应的cpp类型,how
    2. 域名相关信息相似度:暂定使用jaccard系数, 聚类过程中,记录下与该域名最相似的k个域名,
  2. 相似度计算维度:
    1. name主干相似度
    2. 类型一致的属性合并计算jaccard系数,(如注册人,管理人,技术人,同理,电话)
    3. 如何使用scikit-learn实现??
      1. ???
  3. 聚类算法选择:
    1. K-means,scikit-learn,unequal variance<-> equal variance;unevenly sized??TOTO
    2. Kmeans 不能实现,考虑rock算法
  4. 设计方面
    1. mongodb存储中间信息
      1. 有哪些中间信息???
        1. 所有的域名对象,
        2. 最相关的k个信息,
      2. 倒排表??
  5. 评估标准:
dfas /
Published under (CC) BY-NC-SA in categories Programming  tagged with records