2019-08-25-2019CCF-Work-Piece-EDA

离散制造过程中典型工件的质量符合率预测

Posted by lambda on August 25, 2019

Concat: github: lambda_xmu

赛题地址:离散制造过程中典型工件的质量符合率预测

DATA BACKGROUD

在此任务中,以某典型工件生产过程为例,提供一系列工艺参数,以及在相应工艺参数下所生产工件的质量数据,来预测工件的质量符合率。

Label Distribution

可以对标签excellent,good,pass,fail依次赋值为1,2,3,4。因为他们之间存在相对关系。因此此赛题既可以当做分类问题来做,也可以当做回归问题来做。

Correlation

此相关性图是根据上述将label进行转化。

需注意:这里做相关性图时未对数据预处理。若对数据进行预处理,相关性则会发生改变。比如此图很多负相关,若对异常值删除,则相关性值会变为正。

判断是否是类别变量

可以发现Parameter5, Parameter6, Parameter7, Parameter8, Parameter9, Parameter10是类别变量,因此提取特征时,可根据类别特征进行提取。但是他们之间还是存在大小关系的。

Parameterlabel 关系

训练集和测试集分布比较

类别数量分布

可以看出,类别出现次数分布比较一致,且每个类别是比较其中的。

密度分布

散点图(查看异常值)

可以明显的发现存在些异常值,可以将其删除或其他操作。

对数转换

通过如下QQ-Plot可以发现:对于连续值,通过对数转换转为了正态分布,

分类变量通过对数转换也更容易发现其特征。

代码详见:2019CCF Work_Piece EDA

未完待续

参考:

https://www.kaggle.com/robikscube/ieee-fraud-detection-first-look-and-eda