楼主: GraphPad_China
959 5

GraphPad Prism 非线性回归入门 [推广有奖]

  • 0关注
  • 2粉丝

讲师

60%

还不是VIP/贵宾

-

威望
0
论坛币
539 个
通用积分
941.1098
学术水平
3 点
热心指数
2 点
信用等级
0 点
经验
9177 点
帖子
209
精华
0
在线时间
335 小时
注册时间
2020-4-26
最后登录
2026-1-5

楼主
GraphPad_China 在职认证  发表于 2025-12-8 17:34:53 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

非线性回归会求解非线性模型中的参数值,使该模型对应的曲线尽可能贴合您的数据点。


  • 区分非线性回归与其他类型的回归
  • 非线性回归的目标
  • 非线性回归的六个步骤
  • 为非线性回归准备数据
  • 请勿对平滑后的数据拟合模型





不同类型的回归

在选择非线性回归前,请确认您确实不需要其他类型的回归。同时也可了解非线性回归与线性回归的区别。


多项式回归

多项式模型的形式为:Y= A + BX + CX2 + DX3 ....


与线性回归类似,拟合多项式模型无需设置初始值。因此,部分程序(如Excel)可执行多项式回归,但无法执行非线性回归;还有一些程序会将多项式回归与非线性回归的拟合模块分开。Prism使用拟合非线性模型的同一分析功能来拟合多项式模型,多项式方程可在Prism的分线性回归分析中调用。


多元回归

多元回归模型包含多个自变量(X)。与线性、非线性回归相同,其因变量(Y)是一个测量值。

逻辑回归


当结局(即因变量Y)仅有两种可能取值时,会使用逻辑回归模型(例如:某人是否患病?学生是否毕业?)。模型中可包含一个或多个自变量,这些自变量可以是年龄、血压等变量,也可以是用于标识受试者所接受治疗方案的离散值。


比例风险回归

当结局是某一单次事件(通常是死亡)是否发生时,会使用比例风险模型。模型中的一个自变量是时间,其他自变量可用于解释治疗方案或其他变量的影响。





非线性回归的目标

非线性回归有两种用途

科研人员使用非线性回归时,通常有以下两个明确目标:

  • 对数据拟合模型,以获得参数的最佳拟合值,或比较不同模型的拟合效果。若您的目标是这个,必须谨慎选择模型(或两个备选模型),并关注所有结果
  • 拟合平滑曲线,以便从曲线中插值,或绘制带平滑曲线的图表。若您的目标是这个,只需通过查看数据与曲线的图表即可评估效果,无需学习太多理论




回归的核心思路

线性回归是对数据拟合直线模型,而非线性回归则将这一思路扩展为对数据拟合任意模型。需区分非线性回归与线性回归及其他类型的回归。

线性与非线性回归的目标,都是调整模型的参数值,以找到最贴合数据的直线或曲线。例如:线性回归的目标是找到使直线贴合数据的斜率与截距的最佳拟合值;而对归一化量效曲线做非线性回归时,目标则是调整EC50(引发最小与最大响应中间值的浓度)与曲线斜率的数值。

更准确地说,回归的目标是找到最可能正确的参数值。这需要对数据围绕曲线的离散情况做出假设。


最小二乘回归

最常用的假设是:数据点围绕理想曲线(或直线)随机离散,且离散情况符合高斯分布。若您接受这一假设,回归的目标就是调整模型参数,找到能使“各数据点到曲线的垂直距离的平方和”最小的曲线。

为何要最小化距离的平方和?而不是直接最小化实际距离的和?

若随机离散符合高斯分布,出现两个中等程度偏差(比如各5个单位)的概率,远高于出现一个小偏差(1个单位)和一个大偏差(9个单位)的概率。

若采用“最小化距离绝对值之和”的方法,对于“距离两个点均为5个单位的曲线”和“距离一个点1个单位、距离另一个点9个单位的曲线”,该方法不会有偏好(两种情况的距离绝对值之和均为10个单位)。

而“最小化距离平方和”的方法,会更偏好“距离两个点均为5个单位的曲线”(平方和=25),而非“距离一个点1个单位、距离另一个点9个单位的曲线”(平方和=82)。


若离散情况符合(或接近)高斯分布,通过最小化平方和得到的曲线,是最可能正确的曲线。





术语

变量

非线性回归模型通过变量X预测变量Y。其中,Y变量被称为因变量、响应变量或结果变量;X变量被称为自变量、解释变量或预测变量。

X变量可以是实验者操纵/指定的数值,也可以是实验者测量得到的数值。

参数

非线性回归模型将因变量定义为自变量与一组参数(也称为回归系数)的函数。回归方法会求解各参数的取值,使模型预测结果尽可能贴近实际数据。这种思路与线性回归类似:线性回归会确定斜率和截距(模型的两个参数/回归系数)的取值,从而让模型通过X对Y的预测尽可能贴近实际情况。






非线性回归的六个步骤

在学习用GraphPad Prism拟合模型前,先回顾必要步骤是很有必要的。


步骤1:选择模型

非线性回归是将模型拟合到数据中,因此您必须选择一个模型或输入新模型。这是科学决策,需由了解实验科学目标的人员完成。

步骤2:决定是否将某些参数约束为恒定值

进行非线性回归时,不必拟合方程中的每个参数,您可以将一个或多个参数固定为恒定值。当数据点较少时,定义常数通常很有帮助。例如,可将S形曲线或指数衰减曲线的底部平台固定为0。


别指望计算机程序有“常识”。结合实验操作和数据准备的过程,判断是否应固定某些参数。例如,若已扣除背景信号,将剂量-响应曲线或指数衰减曲线的底部平台固定为0是合理的。


步骤3:选择(或检查)初始值

非线性回归是迭代过程:程序需先设定各参数的估计初始值,再调整这些值以优化拟合效果。

若选择GraphPad Prism内置方程,软件会自动提供初始值;若输入自定义方程,则需自行提供初始值,或设置从数据范围生成初始值的规则。

若您查看了数据图、理解模型及方程中各参数的含义,估计初始值会很容易。记住只需“估计值”即可,不必非常精确。若难以估计,可先搁置数据,用模型模拟曲线:逐个改变变量,观察其对曲线形状的影响,熟悉参数对曲线的作用后,估计初始值会更轻松。


当用简单模型拟合“干净”数据时,只要初始值不是极偏离正确值,最终都会得到相同的最佳拟合曲线;但当数据离散度高或模型变量较多时,初始值的影响会更大。


步骤4:若同时拟合两个及以上数据集,决定是否共享参数

若将数据输入两个及以上数据集列,Prism会在一次分析中拟合所有数据集;但默认情况下各拟合相互独立,除非您指定共享一个或多个参数。

当共享参数时,这种分析称为全局非线性回归。

步骤5:确定加权方案

非线性回归程序通常对每个数据点赋予相等权重,但也存在多种对数据点进行差异化加权的方式。

步骤6:选择需要输出的结果


非线性回归总会报告参数的最佳拟合值。除此之外,Prism还提供多种选项,供您选择需要输出的结果内容。




非线性回归的数据准备

在Prism种进行非线性回归时,必须创建XY数据表。请遵循以下指导原则录入(或预处理)数据:


  • 避免线性化转换(如Scatchard图、Lineweaver-Burke图):这类图仅适用于数据展示,在数据分析中已过时
  • 转换X值是可行的(只要同步调整模型),且不会改变回归结果。可通过Prism的Transform分析功能实现
  • 不要对数据进行平滑处理:这会导致非线性回归结果无效,应直接拟合原始数据
  • 转换Y值(用于转换单位或扣除基线)是可行的,且不会显著影响非线性回归。可通过Prism的Transform分析功能实现
  • 除非有充分理由,否则避免对Y值进行非线性转换(如倒数、对数):这类转换仅在使方差齐性(即曲线各点的离散度一致)时有用,不可仅为线性化数据而操作
  • 尽量录入原始重复数据,而非仅录入均值±标准差(SD)或标准误(SEM):Prism对两种数据的拟合曲线一致,但录入原始数据有两个优势:①可查看每个重复数据的实际分布;②支持选择稳健非线性回归或自动剔除异常值
  • 若已录入重复数据,先绘制各重复数据的图形(而非均值±误差棒图):后续可再绘制均值图,但建议先查看原始数据的图形
[size=14.6667px]




请勿对平滑后的数据拟合模型



1.png


该图展示了不同年份的飓风数量:左图为每年的飓风数量(数据波动较大);为便于识别趋势,右图呈现了滚动平均值(每年的数值为当年与前8年飓风数量的均值),平滑处理后可呈现清晰趋势。

但存在问题:这些并非真实数据,左图的数值是随机生成的(服从均值为10的泊松分布),本身无规律,每个数值的生成与前后数据无关。

计算滚动平均值会放大随机波动的影响、弱化逐年变异,从而“创造”出趋势的假象。不可对滚动平均值数据进行线性/非线性回归拟合,也不可计算相关系数。此类分析结果是无效且具有误导性的。


问题根源在于:回归分析要求各数据点相互独立,但滚动平均值的每个数值都包含相邻数据的信息,不满足独立性假设。





重新参数化方程的作用

尽管非线性回归(顾名思义)用于拟合非线性模型,但部分推论实际上假设模型的某些特征接近线性,以保证各参数值的不确定性呈对称性。

重新参数化方程可让参数的不确定性更对称,使标准误(SE)更易解释,同时让对称的渐近置信区间(CI)更实用。Prism也可计算非对称置信区间,若选择此方式,方程的参数化形式影响会较小。


什么是重新参数化?

拟合S形酶动力学数据的标准模型有两种形式:

Y=Vmax*X^h/(Khalf^h + X^h)

Y=Vmax*X^h/(Kprime + X^h)

这两个方程式等价的:均拟合Vmax(底物浓度极高时的最大活性)和h(Hill斜率,描述曲线陡峭程度);但前者拟合Khalf(达到半数最大速率所需的底物浓度),后者拟合Kprime(底物作用的抽象度量)。


两种模型无优劣之分,Kprime等于Khalfh,因此会生成完全相同的曲线。


2.png


由于残差平方和、自由度均完全一致,无论选择哪种形式的模型,将其与其他模型比较时,结果都是相同的。


参数的分布并非总是对称的


模拟可用于判断参数不确定性的对称性。我模拟了S形酶动力学数据:设定Vmax=100、h=5、Kprime=25(因此Khalf=5),并加入标准差为7.5的高斯分布离散值。X值与上图一致,每个X对应3个重复Y值。Prism可轻松重复此类模拟,我将模拟重复了5000次,对每个曲线拟合两种模型形式,统计Kprime和Khalf的最佳拟合值,并计算各自的偏度。


3.png


显然,Khalf的分布相当对称,呈高斯分布,偏度接近0(符合对称分布的预期);而Kprime的分布则严重偏斜,偏度值为4.89(部分模拟中Kprime的最佳拟合值超过100),分布远非对称。


用Hougaard偏度量化不对称性

上述结果是通过大量模拟得到的,而判断参数对称性还有更简便的方法:Prism可计算每个参数的Hougaard偏度(基于方程、数据点数量、X值分布及参数值)。在模拟数据集中,Khalf的Hougaard偏度为0.09,Kprime的为1.83。


经验法则:当Hougaard偏度的绝对值大于0.25时,不对称性可能引发问题;大于1.0时,问题会更严重。仅需一个数据集(无需模拟)即可计算该值,结果表明:拟合Khalf时的对称置信区间比拟合Kprime时更准确。


参数不对称的影响

理想情况下,置信区间(CI)易于解释:95%CI有95%的概率包含参数的真实总体值,5%的概率不包含。


分析真实数据时,我们无法知晓参数的真实值,因此无法确定置信区间是否包含其真实值;但模拟数据时,可明确参数真实值,进而量化置信区间的覆盖率。我通过上述相同模拟,对每个数据集拟合两种方程,统计置信区间是否包含参数真实值(Kprime真实值为25,Khalf真实值为1.9037)。下表展示了5000次模拟中,渐近对称置信区间未包含真实值的比例:


“95% CI”

“99% CI”

理想值

5.0%

1.0%

Kprime

8.8%

4.8%

Khalf

5.1%

1.0%



结果显示:Khalf的表现符合预期(因其分布对称),95%置信区间未包含真实值的比例为5.1%(接近理想值5.0%),99%置信区间的比例为1.0%(与理想值一致);而Kprime的表现较差:95%置信区间未包含真实值的比例达8.8%,99%置信区间达4.8%,实际覆盖率远低于标称水平。

这些模拟表明:选择拟合Khalf的方程更具优势。Khalf分布对称,其置信区间可直接按字面意思解释;而Kprime分布不对称,其置信区间无法直接解读。


若让Prism呈现非对称轮廓似然置信区间,参数化形式不再重要

若选择非对称轮廓似然置信区间,则无论您选择哪种方程形式,结果都不会受影响:两种形式下的置信区间覆盖率一致,且会非常接近95%或99%。


选择这种方式后,您可以根据需求挑选方程形式:若要匹配教科书、文献的表述,或契合您的思维习惯,可自由选择。若习惯从图形角度理解,选Khalf;若习惯从机制角度分析,选Kprime。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:GraphPad 非线性回归 GRAPH Prism 线性回归

科研统计绘图工具,助你发现数据

沙发
cre8 发表于 2025-12-9 12:28:39

藤椅
yiyijiayuan 在职认证  发表于 2025-12-9 14:56:39
纯粹路过。

板凳
redflame 发表于 2025-12-9 15:47:10
感谢分享

报纸
512661101 发表于 2025-12-9 18:16:02
谢谢分享!

地板
军旗飞扬 在职认证  发表于 2025-12-9 18:29:42

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-8 19:25