线索回归预测
们的客户是一家生产和交付屋顶板的先锋公司。他们的主要工厂在明尼苏达州,在美国各地还拥有约25家工厂。客户在装配线上实施了100多个传感器,这些传感器将纳秒级的数据流传输到其Spark Data-lake。
输入流体的粘度是保持屋顶瓦生产质量的重要因素。数据显示粘度数据中有不需要的峰(异常值),客户希望消除。以下是我们想到的步骤
在工厂的仪表板上连续监控粘度
寻找粘度值波动的重要因素
对不需要的峰进行根本原因分析(RCA)
SPARK存储库用于保存传感器记录,并在进行较小的预处理后将其显示在工厂仪表板中。R中的多元回归用于找出粘度波动的重要因素。决策树用于执行Web眼泪(屋顶瓦破损)的根本原因分析。对重要变量进行铅回归分析 以预测粘度。建模成功,并使用SparkR实施。
1