西雅图
Michael
idsw加入AutoML特性,主要包括:
加入数据湖的Big SQL功能,提供数据探索、预处理特性
将Kudu作为分析数据存储、机器学习结果存储的数据库(Cloudera已有多个案例使用kudu做分析数据存储)
根据结果字段(Y值)区分是分类还是回归问题
根据分类或回归,自动选取适合机器学习的算法。经过模型训练、测试,提供F/MPV与%准确度,变量影响报告,以方便用户选择合适的算法(Frank有调研其中一个开源组件)
自动生成python代码,供用户自行优化
俊梅
图像处理的计划包括:
深度学习与传统机器学习算法配合使用,提高图像分类与识别准确度
用视网膜病变作为案例,开发优化机器学习核心算法
现已存在4w数据
通过idsw开发
需要注意
分析平台
对于研发计划需要注意:
AutoML的用户场景关注医疗、公安、金融行业
AutoML开发作为长期工作,分阶段进行,不求一步到位
医疗、公安、金融业务对精确度要求很高,训练精度在90%以上顾客才可能接受
调用分析平台已开发的机器学习服务,如NLP服务
seatle R&D重于设计,POC开发工作,落地由国内团队负责
三湖融合
关于三湖融合的注意是:
容器化数据湖、知识湖的组件,采用k8s作为调度核心
三湖做到组件化
Ansible或Ambari Blueprint