DMG(Data Mining Group)是独立的制定数据挖掘标准的团体,它主要开发PMML(Predictive Model Markup Language)和PFA(Portable Format for Analytics),用于简化分析模型部署。
PMML支持在应用程序与系统之间共享预测分析模型。
PMML是一种事实标准语言,用于呈现数据挖掘模型。
预测分析模型采用定型过程中获取的知识来预测新数据中是否存在已知的模式。
PMML包含数据的预处理和数据后处理以及预测模型本身
定义数据字典
<DataDictionary numberOfFields="3">
<DataField dataType="double" name="Value" optype="continuous">
<Interval closure="openClosed" rightMargin="60" />
</DataField>
<DataField dataType="string" name="Element" optype="categorical">
<Value property="valid" value="Magnesium" />
<Value property="valid" value="Sodium" />
<Value property="valid" value="Calcium" />
<Value property="valid" value="Radium" />
</DataField>
<DataField dataType="double" name="Risk" optype="continuous" />
</DataDictionary>
下图为神经网络模型,其中输入层包含3个神经元,隐藏层为2个神经元,输出层为1个神经元。
在PMML中定义神经层及其神经元
<NeuralLayer numberOfNeurons="2">
<Neuron id="3" bias="-3.1808306946637">
<Con from="0" weight="0.119477686963504" />
<Con from="1" weight="-1.97301278112877" />
<Con from="2" weight="3.04381251760906" />
</Neuron>
<Neuron id="4" bias="0.743161353729323">
<Con from="0" weight="-0.49411146396721" />
<Con from="1" weight="2.18588757615864" />
<Con from="2" weight="-2.01213331163562" />
</Neuron>
</NeuralLayer>