西雅图

Michael

idsw加入AutoML特性,主要包括:

  • 加入数据湖的Big SQL功能,提供数据探索、预处理特性

  • 将Kudu作为分析数据存储、机器学习结果存储的数据库(Cloudera已有多个案例使用kudu做分析数据存储)

  • 根据结果字段(Y值)区分是分类还是回归问题

  • 根据分类或回归,自动选取适合机器学习的算法。经过模型训练、测试,提供F/MPV与%准确度,变量影响报告,以方便用户选择合适的算法(Frank有调研其中一个开源组件)

  • 自动生成python代码,供用户自行优化

俊梅

图像处理的计划包括:

  • 深度学习与传统机器学习算法配合使用,提高图像分类与识别准确度

  • 用视网膜病变作为案例,开发优化机器学习核心算法

  • 现已存在4w数据

  • 通过idsw开发

需要注意

分析平台

对于研发计划需要注意:

  • AutoML的用户场景关注医疗、公安、金融行业

  • AutoML开发作为长期工作,分阶段进行,不求一步到位

  • 医疗、公安、金融业务对精确度要求很高,训练精度在90%以上顾客才可能接受

  • 调用分析平台已开发的机器学习服务,如NLP服务

  • seatle R&D重于设计,POC开发工作,落地由国内团队负责

三湖融合

关于三湖融合的注意是:

  • 容器化数据湖、知识湖的组件,采用k8s作为调度核心

  • 三湖做到组件化

  • Ansible或Ambari Blueprint

results matching ""

    No results matching ""