楼主: majianthu
4229 14

[学科前沿] Copula熵的社会科学应用 [推广有奖]

  • 0关注
  • 8粉丝

讲师

12%

还不是VIP/贵宾

-

威望
0
论坛币
1473 个
通用积分
444.8383
学术水平
75 点
热心指数
60 点
信用等级
58 点
经验
2566 点
帖子
75
精华
1
在线时间
639 小时
注册时间
2020-5-12
最后登录
2025-4-24

楼主
majianthu 发表于 2022-8-20 13:18:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Copula熵(Copula Entropy:CE)是本人在清华读博期间提出的统计学概念,可以用来衡量统计相关性和因果性,具有传统统计学方法不具有的显著优势,应用广泛。

虽然是一个数学概念,它却在社会科学领域产生了广泛影响,已经被应用于经济学、社会学、教育学、心理学、法学、政治学和金融学等学科领域,研究的问题包括扶贫政策评估、议价机制、产业链分析、性别平等、高中学科教育、心脑关系、社区犯罪、政治安全和金融工程等重要话题,现将相关内容简介如下。

经济学
经济政策的评估需要定量分析,定量分析方法可以科学、客观地评估政策效果。罗良清等[1,2]提出了一种可以定量分析政策组合效果的决策树构建方法,CE被用来度量非线性相关关系并构建决策树,方法的思想是利用基于CE定义的信息增益来构建用以区别不同政策对象群体的政策决策树,由树的叶子节点来表示不同政策组合对应的群体划分。他们将该方法应用于发展经济学领域,评估我国的减贫政策效果,研究分析了2018年由政府开展的贫困家庭状况普查的问卷调查数据中四川省的数据。分析发现,就业政策、新收入来源和是否有抵押贷款是影响家庭收入的主要政策因素,并揭示了这些政策组合对应的不同目标贫困群体收入结构的不同特征。该方法在无历史数据的情况下,评估验证了减贫政策的有效性,并发现了更加有效的政策组合方案。

经济学的核心目的是发现因果关系。传统的经济学依靠推理建模以及基于此的实验设计。因果发现是从数据中发现因果关系的方法,将其与经济学理论模型相结合是设计经济学实验的新路径。Bossemeyer[3]基于CE和MI的关系提出了一种条件独立性测试算法,并将其应用于因果结构发现的PC算法中。他利用新PC算法研究了经济学中的议价理论,研究讨价还价行为中互惠关系的作用,以及响应时间在这个过程中的作用。他将算法应用于eBay的Best Offer平台数据,发现交易双方让价行为之间存在关联,印证了互惠理论;同时,发现了对手还价响应时间对下一次要价存在因果效应。

产业链是指产业部门之间基于经济关系形成的链条式关联关系形态。产业链基于资源要素分配和专业化分工等多种因素构成上下游关系,来进行价值互换,上游企业向下游提供产品和服务,下游向上游反馈信息,由此形成关联互动关系。产业链各环节之间的相关性分析,对产业布局管理和投资组合设计具有重要参考意义。韦颖璐[4]基于CE概念,提出了pair-copula熵的概念,用于度量多变量内部的成对相关关系。她将该概念应用于国内畜禽养殖产业链各环节之间的相关性研究,基于该领域内9家上中下游主要上市企业的股票价格数据,运用pair-copula熵度量了产业链内上中下游之间的相关性,发现该产业链上游相关性较强,下游相关性较弱;无条件相关性强,条件相关性弱;上中之间相关性强等现象。

社会学
性别不平等是社会学研究的问题之一。由性别视角,我们可以发现很多不平等现象,如两性在收入上、教育上、职业上的不平等等。分析和鉴别导致不平等现象的社会学因素是学者们关心的问题,利用定量方法分析相关社会学数据是研究的手段之一。然而各种社会因素之间的因果链条十分复杂,需要采用科学的数据分析工具加以应对。Ma[5]提出了一种多域因果关系鉴别方法,将性别因素作为社会外在变量,将不平等问题转化为数据分析中的域迁移问题,利用基于 CE 的条件独立性测试发现社会变量之间的因果关系。他将方法应用于美国国家成人收入社会调查数据,分析了性别、教育和收入之间的因果关系链条,发现了性别导致教育不平等,进而造成收入不平等的科学证据。

教育学
高中教育各学科之间具有内在的联系,教学大纲中强调了数学对物理、化学和生物等学科的基础性地位,数学知识、数学思维和思想方法深刻地渗透影响着其他学科的教学。因此,数学成绩被认为与其他学科成绩具有相关性。利用实证的方法研究数学与其他学科的关系,分析数学成绩与其他成绩之间的相关性是一个重要的基本问题,对于教学改革和学习方式的选择具有普遍参考意义。柳琼[6]基于某市2013级理科学生高一、高二期末考试成绩和高三两次模拟考试成绩,研究了数学成绩与其他学科成绩之间的相关性。作者比较了经典线性相关系数、秩相关系数和互信息(Mutual Information:MI)三种相关性度量方法,从CE和MI理论关系的角度分析论证了MI度量的优越性,并实验证明了MI度量能够更好地刻画揭示数学对其他不同学科(语文、英语、物理、化学和生物等)的影响力机制。

心理学
大脑是一个分布式的网络系统。它不仅控制身体,改变内部生理状态,也影响多个高级过程。同时,内脏信息也时刻受到大脑的监控,也就意味着内脏过程也会反映到皮层活动中。内脏事件相关的大脑活动研究是一个重要的话题。植物神经系统中的过程之间相互关联,而信息论则提供了研究它们之间关系的工具。Ravijts[7]研究了四种情绪刺激特征(效价、唤醒、支配和喜欢)下心跳诱发脑电位(HEP)的时间交互近似估计问题。他采用了用于情绪分析的生理信号DEAP数据集,利用基于CE的GCMI方法估计了MI、协同和冗余等统计量,用于度量不同情绪刺激下HEP上的时间交互。实验发现了支配和喜欢情绪刺激下HEP上的时间交互现象,第一次揭示了情绪感知调制的HEP的时序特性。

法学
社区是基本的社会生活单元,社区治安管理与每个人的生活息息相关。社区属性与社区犯罪之间具有内在联系,分析社区经济、社会和人口等属性与各类犯罪之间的关系,可以加深对犯罪行为发生的理解,对执法部门合理安排部署资源力量具有重要参考意义。Wieser[8]基于CE与MI的等价关系,提出了一种新的信息瓶颈(Information Bottleneck)估计方法。由于利用了CE的变换不变性,该方法较传统同类方法具有更好的估计性能。他将方法应用于美国社区与犯罪数据集,分析125种经济社会因素与18种犯罪属性(包括8种犯罪行为,人均犯罪率和人均(非)暴力犯罪率)之间的关系,学习得到了可以表示这种关系的潜变量模型,为构建犯罪预测模型提供了参考。

政治学
政治安全事关国家安危。政治学研究关心政权领导力因素与政权危机之间的关系,并根据这些信息配置资源,开展情报收集、稳定或颠覆政权等行动。基于雪城大学莫伊尼汉全球事务研究所的国际政治领导力数据集,Card[9]研究了37个领导力因素与政治安全之间的非线性关系,采用CE(MI)作为非线性分析工具,重点关注了两个领导力变量(政权建立原因和政权结束原因)与其他因素的关系。分析结果佐证了社会学家的已有理论,分析也印证了已知的关系,发现了未知的关系和现象。

金融学
量化金融是通过对金融数据的数量关系分析指导金融决策的新兴金融学科。基于金融交易系统产生的大量金融市场交易数据,利用数学工具分析金融产品之间的数量关系,可以明晰市场规律和动态,进而管理金融资产。其中,分析市场金融变量之间的相关性是金融工程的重要问题,可以帮助交易员洞察它们之间的动态关系,进而调整投资组合和管理风险。由于金融市场变量具有非线性、非高斯性等特征,使得MI成为了理想的相关性度量,而MI估计算法则成了量化金融工具箱的重要工具之一。基于CE的MI估计算法就被量化金融算法库MLFinLab[10]实现,并得到业界广泛应用。

基于中国股票市场(沪市A股指数、深市A股指数和沪深300指数)真实数据,Wang[11]研究了利用股票资产之间的相关性关系网络,优化投资组合的方法。方法采用了包括CE在内的线性和非线性相关性度量,基于相关性强度构建股票资产间的关系网络,进而构建投资组合。研究中估计了不同Copula参数函数族的CE(MI)。

分析金融数据需要对其建模数学模型,但金融变量以及其联合分布具有非高斯性,给数据建模带来了挑战。Calsaverini和Vicente[12]给出了一种巧妙的Copula函数模型选择方法。该方法利用CE(MI)的边缘分布无关特性,将Copula鉴别问题的目标与边缘函数分开,再利用CE的定义,将问题转化为以MI为上界的模型选择问题。作者还定义了超量信息(Informaion Excess)的概念。作者将建模方法应用于1990至2008年间标普500指数的150只股票的每日对数收益率数据,利用超量信息,验证了该方法作用于T-Copula函数族时的有效性。

R藤Copula是一种灵活的构建多元copula分布的工具,确定藤的结构是建立此类模型的关键步骤。Alanazi[13]基于CE和MI、CMI之间的关系,提出了一种R藤copula的构建方法,基于MI建立最小生成树,再计算前一子树每对边上的CMI,根据CMI建立新的子树并决定藤copula的层级结构。他将该R藤copula构建方法应用于股票间相关结构的建模问题,基于德国DAX指数15种主要股票数据(2005年1月至2009年8月)构建了资产间关系结构的R藤copula模型,与传统方法相比,该方法建立的copula相关结构模型能够更好地拟合数据。

信用风险是金融银行业面对的主要基本风险之一,保障金融安全需要有效地管理信用风险。信用评分卡模型是一种对客户进行信用风险评价的模型方法,是管控金融风险的决策工具。该类模型根据客户的信用历史数据为其划分信用等级,来决定其金融权限。传统的建立信用评分卡模型方法依靠专家经验,效率低且生成的模型不够完善。孔祥永等 [14] 提出一种基于 CE 的自动化信用风险模型构建方法,能够显著提高建模效率,可以同时保证模型具有高预测性能和可解释性。作者将该方法在真实信用卡数据上与专家建模进行了对比,实验结果表明方法大大缩短了建模时间,且能够得到媲美专家模型的预测性能和可解释的客户信用特征。

了解更多Copula熵的理论和应用,请见我们在ChinaXiv的综述论文

参考文献
  • 罗良清, 平卫英, 单青松, and 王佳. 中国贫困治理经验总结:扶贫政策能够实现有效增收吗?. 管理世界, 38(2):70–83, 2022.
  • Qingsong Shan and Qianning Liu. Binary trees for dependence structure. IEEE Access, 8:150989–150998, 2020.
  • Leonie Bossemeyer. Machine Learning for Causal Discovery with Applications in Economics. Master's thesis, Ludwig-Maximilians-Universität München, 2021.
  • 韦颖璐. 基于pair--copula熵的相关性度量. 硕士学位论文, 苏州大学, 2021.
  • Jian Ma. Causal domain adaptation with copula entropy based conditional independence test. arXiv preprint arXiv:2202.13482, 2022.
  • 柳琼. 基于Copula和MI理论的相关性度量及其应用研究. 硕士学位论文, 三峡大学, 2018.
  • Liesa Ravijts. Revealing temporal interactions around the heartbeat-evoked potential modulated by emotional perception. Master's thesis, Ghent Univeristy, 2019.
  • Mario Wieser. Learning Invariant Representations for Deep Latent Variable Models. PhD thesis, University of Basel, 2020.
  • Stuart William Card. Towards an information theoretic framework for evolutionary learning. Master's thesis, Syracuse University, 2011.
  • Hudson and Thames. Machine learning financial laboratory (MLFinLab), 2021. URL: https://github.com/hudson-and-thames/mlfinlab.
  • Qiutong Wang. Social networks, asset allocation and portfolio diversification. Master's thesis, University of Waterloo, 2015.
  • Rafael Calsaverini and Renato Vicente. An information-theoretic approach to statistical dependence: Copula information. EPL (Europhysics Letters), 88(6):68003, 2009.
  • Alanazi, F. A. Truncating Regular Vine Copula Based on Mutual Information: An Efficient Parsimonious Model for High-Dimensional Data. Mathematical Problems in Engineering, 2021, 4347957.
  • 孔祥永, 王浩, 袁伟, and 蔡明. 一种自动化特征工程信用风险评价系统及方法, 2021. CN114049198A.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Copula opula 社会科学 independence Evolutionary

沙发
三江鸿 发表于 2022-10-5 20:27:48 来自手机
点赞支持 感谢分享

藤椅
大宝. 发表于 2023-3-7 11:24:06
楼主你好,请问在将copula熵结合的代码分析你能分享一下吗

板凳
majianthu 发表于 2023-3-14 04:21:23
大宝. 发表于 2023-3-7 11:24
楼主你好,请问在将copula熵结合的代码分析你能分享一下吗
关于copula熵的示例代码,请见我的github:
github.com/majianthu

报纸
majianthu 发表于 2023-3-21 05:46:22
补充几个最新的应用:
经济学
投资者情绪对财经市场有着广泛而多面的影响,投资者情绪分析是经济学研究的重要问题之一。由于社交媒体和市场关系整合,投资者情绪会在人群和国家间传播,进而形成传播网络,使得局部情绪波动得以迅速扩散,造成系统性影响。Han和Zhou[1]提出了一个基于小波分析、传递熵和网络分析组合的方法,研究公司间投资者情绪传播的模式,其中采用了基于CE的传递熵估计方法。他们采用2015-2021年间的中国137家新能源汽车上市公司的百度搜索索引数据来代表投资者情绪,将其用小波分析分解为多尺度信息,再用传递熵构建情绪传播网络,最后用网络分析的方法分析短期和长期传播特征。他们发现,投资者情绪表现为短期局部活跃,并具有连续且逐渐增长的进化模式。
管理学
库存管理是企业运营管理过程中的关键环节,也是管理学的重要问题之一。报童问题是典型的单周期库存管理模型,一直是本领域研究的焦点。近年来,利用数据驱动模型和方法的报童问题研究展现出比传统方法的优越性,进而成为了热门话题。Tian和Zhang[2]提出了一种端到端的算法框架,利用深度学习模型从在线商品评论等特征数据中预测订单数量,其中采用了包括CE在内的方法来选择模型的输入特征。他们将方法应用于汽车库存管理问题,基于2016至2022年间的大众朗逸汽车的历史销售量、某网站的评论、某搜索引擎指数、和宏观经济指数等数据构建了模型。结果显示,本方法能够大幅减少超额成本和短缺成本之和,与同类方法相比减少了31.8%的成本。
新闻传播学
公共卫生事件发生过程如何影响公众情绪是一个重要的问题,具有理论和现实意义,对政府的信息发布和舆情管控具有参考价值。特别是新媒体环境中,公众情绪的传播和演化过程受多种因素影响,因而更趋复杂。新冠疫情的发生给研究这类问题提供了条件。Zhang等[3]研究了上海新冠疫情发生期间,疫情过程对公众情绪的影响特点和机理。他们以微博平台上“上海疫情”主题的数据为基础,研究了公众情绪的影响因素、时间演化以及疫情与公众情绪之间的因果关系。研究利用了基于CE的传递熵方法分析了疫情和公众情绪之间的因果关系,实证地发现了疫情过程对公众负面情绪的因果效应大于正面情绪,且正面情绪对负面情绪具有抑制效应。

更多Copula熵的理论和应用内容介绍,请见我们在ChinaXiv的综述论文

参考文献
  • Muye Han and Jinsheng Zhou. Multi-scale characteristics of investor sentiment transmission based on wavelet, transfer entropy and network analysis. Entropy, 24(12):1786, 2022.
  • Yu-Xin Tian and Chuan Zhang. An end-to-end deep learning model for solving data-driven newsvendor problem with accessibility to textual word-of-mouth data. SSRN, 2023.
  • Bowen Zhang, Jinping Lin, Man Luo, Changxian Zeng, Jiajia Feng, Meiqi Zhou, and Fuying Deng. Changes in public sentiment under the background of major emergencies – taking the Shanghai epidemic as an example. International Journal of Environmental Research and Public Health, 19(19):12594, 2022.

地板
majianthu 发表于 2023-4-2 09:41:20
补充两个最新应用:
公共管理学/计算语言学
城市服务热线是政府公共管理系统的重要组成部分,促进了政府和市民的沟通,改善了政府的公共服务。但传统的人工派单方式无法满足日益增长的热线诉求,如何高效快速的处理大量的市民热线诉求是城市服务热线提高服务质量面临的重要课题。大量的热线文本数据积累为快速筛选和处理热线诉求提供了可能,可以利用自然语言处理方法处理热线文本数据,进而构建智能派单系统。陈作海等 [1] 提出了一种基于知识图谱技术的城市热线派单方法,基于城市热线数据构建热线知识图谱,再对待派单诉求根据构建的知识图谱检索结果进行派单,大大改善了热线服务的工作效率。在此智能派单系统中,Copula熵(CE) 作为特征选择方法被用来对城市热线数据进行预处理,以构建和更新知识图谱。结果表明,CE 表现优于其他同类方法。作者将该方法应用在济南市民服务热线的系统上,通过不断更新知识图谱,最终获得了 90% 以上的派单准确率。

军事学
目标意图及时准确识别是战场态势感知的一项重要内容,是指挥决策的基础和前提。空中飞行目标意图识别会面临多种不确定性的挑战,如行为特性与物理特性的不确定性、飞行规则的不确定性和行动能力的不确定性等,使得及时准确的意图识别十分困难。张可等 [2] 提出了一种基于动态贝叶斯网络的目标意图识别方法,用于从复杂态势中目标的时序数据中完成意图识别,方法利用基于 CE 的 MI 估计算法从目标属性和目标意图数据来生成贝叶斯网络结构,再利用自适应遗传算法迭代优化网络结构,利用最终优化得到的网络来进行未知目标的意图识别。他们将该方法应用于空中目标的处理过程,利用空中目标的位置信息、飞行信息,以及雷达和通讯系统信息来识别其 6 种不同意图(巡逻、预警/指挥、电子侦察、电子干扰、攻击和打击等)。该方法可不限于空中飞行目标,可以很方便地推广到其他类型目标上。

参考文献
1. 陈作海, 钱恒, and 高永超. 一种基于知识图谱的城市热线派单方法及系统,2023. CN115860436A.
2. 张可, 刘施彤, 郑植, 贾宇明, and 黄乐天. 一种基于动态贝叶斯网络的目标意图识别方法, 2022. CN114997306A.

7
majianthu 发表于 2023-5-10 09:02:31
金融学/管理学
准确预测农产品期货价格有助于为政府相关部门的科学决策提供参考,因而对保障国家粮食安全具有重要意义。然而价格预测受多种复杂因素的影响,如国际形势、市场情绪博弈等。因此,识别价格的影响因素对构建准确的价格预测模型至关重要。 An 等 [1] 提出了一个基于历史数据和文本数据的融合多种方法的混合预测框架,其中经验模态分解(Empirical Mode Decomposition: EMD)用于预处理历史数据,动态主题模型(Dynamic Topic Model: DTM)和情感分析用于提取微博文本信息,再利用Copula熵( CE )等方法对提取的因子进行筛选,用于构建预测模型。作者在两个实际数据上验证了该方法框架:国家统计局的猪肉价格数据和大连商品交易所的大豆期货价格数据,并收集了相应时间内的微博文本数据。在实验中,作者将 CE 方法与同类的 dCor 和 HSIC 方法进行了对比,结果表明,在两个数据上,基于 CE 的预测模型都给出了最好的预测性能。

参考文献
1. Wuyue An, Lin Wang, and Dongfeng Zhang. Comprehensive commodity price forecasting framework using text mining methods. Journal of Forecasting, 2023.

8
majianthu 发表于 2023-7-8 08:52:03
金融学
股票市场的投资者总是希望投资发展良好的上市公司,因此甄别一只股票的好坏对投资者十分重要。ST股票制度是在我国A股市场实施的股票风险警示机制,有助于投资者选择投资组合并规避风险。股票分类是股票分析领域的一类重要问题,对金融市场投资者具有参考价值。朱仲儿[1]提出了一种基于机器学习方法的ST股票分类方法,采用Boruta算法和CE方法进行特征选择,再利用6种回归模型进行预测,利用Optuna框架对模型的超参数寻优。他选取了tushare数据库中上交所和深交所的2076只股票(含351只ST股票)自2016年以来的数据,含有139个股票特征变量,最终利用Boruta和CE方法筛选了7个可解释的变量。模型预测结果表明该方法在筛选特征和XGBoost模型组合上获得了最好的预测精度。

参考文献
1. 朱仲儿. 多种机器学习方法的股票分类预测. 硕士学位论文, 上海师范大学, 2022.

9
majianthu 发表于 2023-7-11 04:09:56
经济学
航空和高速铁路是我国最主要的两种旅客运输方式。相较于航空,高铁票价的市场化水平处于落后的水平,欠缺灵活性和动态性。因此,研究影响票价的因素以期改进高铁票价的定价机制是学界十分关心的问题。许罗豪等[1]基于京沪航空和高铁票价的数据,利用CE和决策树等工具研究了出行需求、旅客选择、出行效率和出行路线四类因素对航空和高铁票价的影响。他们发现购票提前期对两种票价的影响程度不同,但旅行时间对二者的影响程度较为相似。这些研究结论对高铁定价具有一定的参考价值。

参考文献
1. 许罗豪, 刘金鑫, 张慧波, and 纪超. 基于熵与回归树的票价影响因素研究. 综合运输, 45(6):125–130, 2023.

10
majianthu 发表于 2023-8-16 07:12:53
情报学
颠覆性技术是具有原始创新性的技术,会对现有主流技术和产业产生变革性作用,推动经济社会发生突变式进步。开展颠覆式技术的前瞻识别及预判研究是科技情报分析领域的重要问题,对科技政策制订、科技产业布局和科技创新生态培育具有指导意义。基于知识网络分析的科学、技术和产业互动模式研究是解决识别研判问题的路径之一。许海云等 [1] 提出了一个颠覆性技术研究流程框架,以渐进式技术为参照获取科技、专利和产业文献资料的文本数据,利用自然语言处理技术分别构建三者的知识网络,再利用知识网络的三种整体网络属性和网络社区相似度属性将知识网络互动模式划分为预设的五种模式,包括科学-技术-产业联动模式。其中,CE 被用来度量三种知识网络的整体网络属性之间的关联度,以表征互动模式。他们以再生医学(干细胞)领域作为颠覆性技术对象,以白血病治疗领域为渐进性技术参照开展实证研究,获取了截至2020 年底的权威数据库相关文本数据,利用该流程框架研究了两个对比领域科学-技术-产业互动模式的共性和差异,加深了对颠覆性技术创新生态要素的知识流动和扩散规律的认识。

参考文献.
1. 许海云, 王超, 陈亮, 徐硕, 杨冠灿, and 朱礼军. 颠覆性技术的科学-技术-产业互动模式识别与分析. 情报学报, 42(7):816–831, 2023.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-17 12:39