# 针对甜瓜早期采摘预测的集成学习算法
痛点:对影响甜瓜产量和质量的特征进行相关分析和预测可以促进农民或植物育种者的早期决策,或使生产者能够在作物收获前预测融资。本研究还比较了模型在使用所有特征变量和仅使用缩减特征变量时的预测效果。本文提出的GBDT预测模型以约简特征为输入对甜瓜产量、含糖量、硬度进行预测,模型R2可达90%以上。
应用场景:在甜瓜的采收过程中,果实的重量和成熟度被认为是销售过程中的综合评价指标,成熟度的检测可以保护消费者的利益,提高甜瓜的加工质量和生产档次,增加市场竞争力。
![image.png](/z_anli/upload/pgc/202212/3ad5852b5bd600dc53eedc297fed96c7.png)
## 简介
中国已成为世界第一大甜瓜生产国和消费国。2020年世界甜瓜产量的48.7%,人均消费量是世界平均水平的2.6倍
左右。北京、天津、河北是我国著名的瓜类产区,瓜类脆、水、甜,深受人们喜爱。北方早晚温差大,有利于瓜类积累糖分。三地气候条件和生产设施各具特色,在产品供销、技术合作等方面合作空间广阔。
在培育新品种时,生长、开花、结实、果实大小、颜色等性状都关系到优良个体的选择。它们与产量和质量密切相关。在甜瓜生长期间,品质不仅取决于其形状和外观特征,还取决于其可溶性固形物含量、硬度、总酸度和成熟度等因素。在甜瓜的采收过程中,果实的重量和成熟度被认为是销售过程中的综合评价指标,成熟度的检测可以保护消费者的利益,提高甜瓜的加工质量和生产档次,增加市场竞争力。有着强烈的需求。对影响甜瓜产量和质量的特征进行相关分析和预测可以促进农民或植物育种者的早期决策,或使生产者能够在作物收获前预测融资方面。
机器学习是 AI(人工智能)的一个分支,是一种基于多种特征提供更好产量和质量预测的实用方法。它可以自动处理输入和输出变量之间的关系,并从示例样本中挖掘隐式模式,以“学习”这些数据的结构描述机器学习算法可以自动解决重大的非线性问题,并支持在现实场景中更好地进行决策和操作,而无需人工干预。
梯度提升决策树作为一种成熟的集成学习算法,着重于有效降低预测值与实际值的偏差。它将多个回归树模型串联起来形成一个强学习器,其base-learner回归树模型具有效率高、缺失值不显著的特点。通过不断拟合前一棵树的残差来提高性能,更侧着于学习模型的准确性。它还具有效率高、预测准确、对原始数据不敏感、模型可解释性高等优点。梯度提升决策树模型已被用于预测农业中的胁迫、土壤含水量和遥感图像识别等。
利用GBDT模型建立了玉米早期胁迫高分辨率图像中14个特征的两阶段识别模型,不仅可以很好地应用于无损测量中的水分胁迫检测,而且可以很好地应用于田间。
本文记录了甜瓜生长过程中果实物候特征、形状特征(包括外观和内部特征)、颜色特征(包括外果皮和内果皮颜色特征)的数据。GBDT算法用于分析和预测影响甜瓜果实产量、糖度和硬度值的特征的重要性。综合比较了支持向量回归(SVR)和随机森林(RF)这两种经典回归模型的预测性能和结果。并且比较了模型在所有特征变量和仅减少特征变量时的预测结果,使得模型可以更好地应用于现场的无损检测任务。
## 材料和方法
该研究在天津市农科院试验基地进行。位于天津市北辰区,地处亚欧东海岸,中纬度,N:39°18′53.32″ E:117°13′23.73″。试验在天津地区夏秋季进行,8-10月气温16-25℃,平均降水量214毫米,该地区日照率59%。8月5日播种,10月16日收获。
试验作物为天津市农业科学院蔬菜研究所提供的厚皮甜瓜品种“232”。该品种在花后35天左右和瓜膨大期后15天左右成熟。瓜苗长出2片真叶和1个顶芽时移栽,定植密度为33945株/公顷。定植前施足有机肥和高钾复合肥,拌施、旋耕。
我们确认文章中使用的植物是在现场生产期间进行采样和测量的,并符合国际、国家和机构对本研究的指导方针。
所有指标均在收获时进行评估。重量指标采用电子秤称重,形状指标采用游标卡尺,果肉硬度指标采用硬度计,糖度指标采用糖度计,色度指标采用色度计进行指标测量,人工记录物候信息。
本研究中使用的测量仪器和规格主要有小量程精密天平(ZG-TP203),规格5 kg/0.01 g,上海冉豪电子有限公司;游标卡尺(量程:0~150mm,精度:±0.02mm),上海寿喜工具有限公司;3 NH(NR110型,测量孔径:8mm)全自动便携式色度计,深圳市三恩施(3 NH)科技有限公司 GY-4数显水果硬度计,北京金科利达电子科技有限公司;PAL-1水果数显测糖仪,日本ATAGO公司,如图1所示。
![image.png](/z_anli/upload/pgc/202212/d97a74086767c8e6919c0d3eb491e896.png)
图1:瓜果形态特征
每个完整样品采集3次,权重指数取平均值。取种子腔和内果皮边缘处的含糖量值,各取一半样品3次,取平局值。在内果皮中央采集硬度值,左右两侧同时采集各半样,取平均值。瓜果由花托和子房发育而成。果实可分为果皮和种腔。果皮由外果皮、中果皮和内果皮组成,中果皮和内果皮没有明确的界限。两者均由富含水和可溶性糖的大型薄壁细胞组成。形状指标用游标卡尺测量相应的位置指标。
![image.png](/z_anli/upload/pgc/202212/a62ac07cfcb196a22987d0029212870b.png)
表1:特征变量的相关描述
## 梯度提升决策树模型
Gradient Boosted Decision Tree是一种以CART分类回归树(CART)为基础模型的集成学习算法,由决策树和Gradient Boosting两部分组成。它的主要学习者是回归树,它通过构造一个函数来拟合数据集中的元素来最小化均方误差。使用组合策略组合多元回归树模型以获得GBDT集成学习器。
将物候特征、形状特征、颜色特征与甜瓜果实产量、含糖量、硬度相结合,建立了GBDT学习模型。
其中,Xi,Yi是对应的准则参数;Si是回归树模型中对应的叶节点。D={(xm,ym)}是包含*m*个训练样本的数据集,xm是每个训练样本由*d*个特征属性描述。
1:初始化基础学习器:
![image.png](/z_anli/upload/pgc/202212/a08374067a49531be179f2181c265a5e.png)
其中,L(yi,a)是损失函数,1式子表示确定在损失函数最小值。
2: 构建了一系列 CART 回归树,使用梯度提升技术在其上拟合残差。在第次 (k= 1,2,… *K* ) 迭代中,对于每个样本(![](file:///C:/Users/71564/AppData/Local/Temp/msohtmlclip1/01/clip_image020.gif)),GBDT 指定负梯度损失价值作为剩余估计数。在本文中,我们选择最小均方误差作为损失函数。
![image.png](/z_anli/upload/pgc/202212/e8ae1f332124006d3c9adf2c26fd8806.png)
残差估计为:
![image.png](/z_anli/upload/pgc/202212/181820b28206bfa4968dcfceb93ad043.png)
确定残差估计后,对CART回归树进行拟合,得到第k棵树的叶节点区域,对于每个叶节点区域,确定最小化相应损失函数的最佳拟合值!βjk。
![image.png](/z_anli/upload/pgc/202212/372cc0c3254edc52b69774d67e577c85.png)
4:更新学习器fk(x):
![image.png](/z_anli/upload/pgc/202212/68a9ea136004e15d0136d36f47ad0ed0.png)
其中,是学习率
5:迭代结束后,形成一个GBDT强学习器,其可以表示成下面的式子:
![image.png](/z_anli/upload/pgc/202212/3677a547f344f8886540bfe58fd171fc.png)
6: 特征重要性计算的原理可以用下面的方式表示:在近似的F(x)描述中,![](file:///C:/Users/71564/AppData/Local/Temp/msohtmlclip1/01/clip_image038.gif)个体输入对F(x)变化的相对影响在上联合输入变量的分布可以表示为:
![image.png](/z_anli/upload/pgc/202212/2d506d10a12775f0da7dc3279d6adfb7.png)
一个特征的全局重要性是通过该特征在单棵树中的平均重要性来衡量的:
![image.png](/z_anli/upload/pgc/202212/dffaebfaed8ccb8526503c6a11165554.png)
其中,M表示的是树的数量,单颗树中特征的重要性如下表示:
![image.png](/z_anli/upload/pgc/202212/f2a7cc810e461646ac17ec9f80e4b55e.png)
这个式子当中,L表示树的叶子节点个树。L-1是树的非叶子节点个树(构造的树为左右叶子的二叉树,vt表示关联的特征,一节点分裂后平方损失的减少值。
## 实验结果和分析
对于 GBDT,本文使用 GS(网格搜索方法)在建模数据集上优化四个超参数。最大迭代次数为 750,最大深度为 5,学习率为0.05,最小叶子数为 1。
**评价指标**
使用R2(R平方,拟合优度)对每个模型的预测结果进行评估和比较。同时,使用MAE(平均绝对误差)和RMSE(均方根误差)指标来综合比较各个模型的预测效果。模型计算的TIME(Consumption time)用来评价模型计算的效率。其中,MAE反映预测值与实际值的偏差,RMSE反映预测值与实际值之差的标准差。
![image.png](/z_anli/upload/pgc/202212/62215c8ef7aebaf807c5668925c56830.png)
其中,y-表示目标的平均值,yi表示标注的果实重量,含糖量和硬度值,pj表示个体样本的预测值。
**特征变量重要性分析**
根据特征重要性原则计算各特征变量在甜瓜产量、含糖量、硬度值预测过程中的重要性,如图2所示。
![image.png](/z_anli/upload/pgc/202212/5d72cf789581df484a00febf8d8458a4.png)
图2:与产量,含糖量和硬度相关的特征变量的重要性顺序
根据三个目标特征变量和类别的重要性进行重要性分析。对于产量:果实宽度 (FW)、果实长度 (FL)、种子腔长度 (SCL)、总果皮厚度 (TPT) 以及与内果皮和种子腔相关的内部性状参数对产量具有决定性作用。对于糖含量,参数内果皮厚度(ET)、种子腔宽度(SCW)、外果皮和中果皮果实宽度之和(SWI)和总果皮厚度(TPT),这些参数与可食部分的大小有关果,关系密切。对于硬度,内部特征总果皮厚度(TPT)、内果皮厚度(ET)、外果皮和中果皮果实宽度之和(SWI)和外果皮颜色特征对硬度指标有显着影响。与产量和硬度相比,物候特征对含糖量的影响更为关键。颜色指标中,与外果皮黄蓝色特征空间相关的XC_Hb*和XC_b*与含糖量和硬度均显着相关,外果皮颜色对所有三个指标的重要性均高于内果皮颜色。
根据图3。产量、含糖量和硬度的基本特征是果实宽度 (FW)、内果皮厚度 (ET) 和总果皮厚度 (TPT)。果实宽度(FW)对产量和含糖量的影响大于其他特征,而ET对含糖量和硬度均有影响。产量指标的影响因素主要集中在外观特征上,糖度和硬度指标的影响因素主要集中在内部特征上。同时,外果皮的颜色特征对其也有比较显着的影响。
![image.png](/z_anli/upload/pgc/202212/3079eddc851c7fa26d48e0da0c87828d.png)
图3:产量、含糖量和硬度等特征变量的重要性。
**预测效果分析**
本文开发的 GBDT 学习模型预测了
32 个特征变量的甜瓜产量、含糖量和硬度值,分别包括物候特征、外观特征、内部特征、外果皮颜色特征和内果皮颜色特征。学习模型在得到255个样本后,通过在训练和测试阶段设置随机种子数,按照7:3的比例随机划分训练集和测试集。评估指标如表2所示。预测结果如图4所示。
![image.png](/z_anli/upload/pgc/202212/3e7862e6094a2e5e31ec85b94f29d21e.png)
表2:预测指标
![image.png](/z_anli/upload/pgc/202212/b80bafbca324cf189234006aa5c9897d.png)
图4:GBDT预测有效性
**讨论**
为了方便种植户能够在田间作业,帮助他们在种植初期进行预估,构建并讨论了以甜瓜物候特征、外观特征和外果皮颜色特征为输入的降维特征预测模型。目的是比较非破坏性条件下利用甜瓜产量、含糖量、硬度预测模型的可行性。
同时,为了评估和测试GBDT学习模型对甜瓜产量、含糖量和硬度的预测效果,本文同时建立了GBDT、SVR和RF,输入输出特征参数和样本数据集划分不变。综合分析比较预测结果如图 [5](https://www.nature.com/articles/s41598-022-20799-z#Fig5)所示,评价指标如表[3](https://www.nature.com/articles/s41598-022-20799-z#Tab3)所示。R2、RMSE、MAE 和 TIME 用于预测每个模型的结果。RF参数:迭代次数为750,最大深度为5,最小叶节点数为1。 SVM参数:内核使用'RBF',C为100,学习率为0.001。
![image.png](/z_anli/upload/pgc/202212/144f5701f452ecdf89c90d48cd35a28e.png)
图5: 以降维特征为输入,不同模型的产量( **a** )、含糖量( **b** )、硬度( **c ** **)** 预测结果对比。
![image.png](/z_anli/upload/pgc/202212/6d67f45c5eccf04dff58b5c3c2099a05.png)
表3:以减少的特征作为输入的预测指标
比较这些数据表明,由于决策树的生长过程是不断选择和划分特征,因此由大量决策树组成的GBDT具有先天优势,即特征重要性排序容易获得,解释性强。Support Vector Regression(SVR)模型是利用支持向量机(Support Vector Machine,SVM)的思想进行回归,与传统回归模型相比,允许模型的预测值和真实值之间存在ε距离,以提高泛化能力,并且具有非线性。Gradient Boosted
Decision Tree 和 Random Forest (RF) 最终结果是由多棵树共同决定的,与 RF 不同的是训练 base learner 的思想。RF使用Bagging方法,无法改善bias。相比之下,GBDT采用了Boosting方法,每次迭代都根据前一次迭代的预测结果对样本进行加权。随着迭代的不断进行,可以保证低偏差,从而提高模型的泛化能力。
如图6所示,通过比较三个模型以所有特征变量和降维特征变量为输入的R2指标,可以看出GBDT模型对产量预测的R2高于特征前后的糖度和硬度模型减少。在使用三种不同模型预测产量时,与所有特征变量作为输入相比,减少特征的使用提高了模型的 R2。相反,减少特征作为输入降低了所有三个预测模型预测糖分和硬度的R2,SVR模型预测R2显着降低超过30%。它与前面讨论的预测模型中所有特征变量的重要性有关,其中减少的特征大多位于产量预测模型中变量重要性排名的顶部,FW 和 FL 在特征重要性得分中接近
100%。相比之下,含糖量和硬度预测模型中更多的内部特征,如 ET、TPT 和 SCW,具有更高的重要性分数。添加一些内部水果措施可以进一步提高糖度和硬度的预测准确性。
![image.png](/z_anli/upload/pgc/202212/3625395f590a7f61dd9d7042a6163c73.png)
图6:不同模型降维前后拟合优度的对比
采用本文提出的GBDT预测模型,以约简特征为输入对甜瓜产量、含糖量、硬度进行预测,模型R2可达90%以上。因此,利用无损特征数据集预测甜瓜果实产量、含糖量和硬度可以达到较高的预测精度,方法可行。
## 结论
在本文中,我们针对中国北方甜瓜品种提出了一种使用 GBDT 和 GS(网格搜索方法)优化搜索超参数方法的机器学习方法,以分析影响甜瓜产量、含糖量和硬度的特征变量的重要性,并成功地预测测试数据。早期预测的一个显着好处是,它允许参与新品种培育、生产决策和寻求财务支持的人员进行早期评估和准备。为了提高模型的实用性,结合田间使用的硬件设备不破坏果实本身,本研究筛选了甜瓜果实的非破坏性特征,包括甜瓜物候特征、外观特征和外果皮颜色特征,构建了一个非破坏性的模型。破坏性预测模型。通过对研究的分析,与用作输入的所有特征相比,该模型仍然具有可接受的预测结果。同时,模型训练时间减少,运行效率因特征变量的减少而提高。因此,未来通过将预测模型嵌入到视觉检测设备中,很容易在现场实现无损、准确、快速的预测和评估工作。
## 参考
Sun, L. X., Wang, X. J., Wu, J. X. & Mao,
S. P. Research on regional distribution changes and driving factors of
watermelon and melon production in China. *Chin. J. Agric. Resour.
Region. Plan* . [https://kns.cnki.net/kcms/detail/11.3513.S.20220705.1954.008.html](https://kns.cnki.net/kcms/detail/11.3513.S.20220705.1954.008.html). (2022).
Wang,
K. High efficient cultivation techniques of muskmelon in winter and spring in
solar. *J. Agric. Catastrophol.* **11** (3), 1 (2021).
Schwarzacher,
H. H. Domestication, genomics, and the future for banana. *Ann. Bot.* **100** (5),
1073–1084 (2007).
Sun, J. T. *Study on Nondestructive Dection
of Hami Melon Maturity Based on Information Fusion of Spectrum and Image* (Shihezi
University, 2017).
Lv,
C. *et al.* Research progress of melon ripeness detection
technology. *Jiangsu Agric. Sci.* **42** (1), 244–246 (2014).
Zhang, X., Chen, Y. & Xiao, G. A review of crop yield
prediction based on machine learning. *Anhui Agri. Sci. Bull.* **27** (03),
1 (2021)
Soares, J., Pasqual, M., Lacerda, W. S., Silva,
S. O. & Donato, S. Utilization of artificial neural networks in the
prediction of the bunches’ weight in banana plants. *Sci. Hortic.* **155** ,
24–29 (2013).
Klompenburg, T. V., Kassahun, A. & Catal,
C. Crop yield prediction using machine learning: A systematic literature
review. *Comput. Electron. Agric.* **177** , 105709 (2020).
McQueen, R. J., Garner, S. R., Nevill-Manning,
C. G. & Witten, I. H. Applying machine learning to agricultural data. *Comput.
Electron. Agric.* **12** (4), 275–293 (1995).
Chlingaryan, A., Sukkarieh, S. & Whelan, B.
Machine learning approaches for crop yield prediction and nitrogen status estimation
in precision agriculture: A review. *Comput. Electron. Agric.* **151** ,
61–69 (2018).
评论(0)
暂无数据