楼主: 何人来此
481 8

[计算机科学] 粗糙集的贝叶斯方法 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

79%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
61.7734
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24791 点
帖子
4194
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
提出了一种基于马尔可夫链蒙特卡罗(MCMC)方法训练的贝叶斯框架的粗糙集模型训练方法。先验概率是根据好的粗糙集模型规则较少的先验知识构造的。Markov链Monte Carlo抽样是在粗糙集粒度空间中进行抽样,采用Metropolis算法作为验收准则。对所提出的方法进行了测试,以估计给定人口数据的艾滋病毒风险。实验结果表明,该方法的平均正确率为58%,正确率变化幅度可达66%。此外,贝叶斯粗糙集给出了估计的HIV状态的概率,以及描述人口统计参数如何驱动HIV风险的语言规则。
---
英文标题:
《Bayesian approach to rough set》
---
作者:
Tshilidzi Marwala and Bodie Crossingham
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--

---
英文摘要:
  This paper proposes an approach to training rough set models using Bayesian framework trained using Markov Chain Monte Carlo (MCMC) method. The prior probabilities are constructed from the prior knowledge that good rough set models have fewer rules. Markov Chain Monte Carlo sampling is conducted through sampling in the rough set granule space and Metropolis algorithm is used as an acceptance criteria. The proposed method is tested to estimate the risk of HIV given demographic data. The results obtained shows that the proposed approach is able to achieve an average accuracy of 58% with the accuracy varying up to 66%. In addition the Bayesian rough set give the probabilities of the estimated HIV status as well as the linguistic rules describing how the demographic parameters drive the risk of HIV.
---
PDF下载:
--> English_Paper.pdf (226.13 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:贝叶斯 粗糙集 Intelligence Presentation Monte Carlo

沙发
能者818 在职认证  发表于 2022-4-15 10:02:50 |只看作者 |坛友微信交流群
粗糙集的贝叶斯方法本文提出了一种使用贝叶斯框架训练粗糙集模型的方法,该方法使用马尔可夫链蒙特卡罗(MCMC)方法训练粗糙集模型。利用好的粗糙集模型规则较少的先验知识构造先验概率,在粗糙集粒空间中进行Markov链Monte Carlo抽样,采用Metropolis算法作为验收准则。proposedmethod被测试用于估计给定人口数据的HIV风险。实验结果表明,该方法的平均正确率为58%,正确率变化幅度可达66%。此外,贝叶斯粗糙集给出了估计的HIV状态的概率,以及描述人口参数如何驱动HIV风险的语言规则。介绍粗糙集理论(RST)由Pawlak(1991)引入,是一种处理模糊和不确定性的数学工具。它是人工智能和认知科学的基础,在机器学习和决策分析中具有重要的应用价值。粗糙集在分析不一致的决策中是有用的。为了处理这些不一致,定义了决策类的上下近似(Inuiguchib和Miyajima,2006)。粗糙集理论经常被用来与模糊集理论进行比较,但它实际上是对模糊集理论的补充。RST的优点之一是它不需要关于数据集的优先级知识,正因为如此,统计方法不足以确定复杂情况下存在的关系,如人口统计变量与其各自的艾滋病毒状态之间的关系。(2006)推广了粗糙集的原始思想,引入了基于相对粗糙隶属度和绝对粗糙隶属度的可变精度粗糙集。贝叶斯框架是一种工具,可以用来将这种绝对隶属度框架扩展到相对隶属度框架。纳希诺等。Al.(2006)提出了一种粗糙集方法来分析具有较多模糊性的人的评价数据,如感官和感觉数据,并利用基于等价类信息增益的概率逼近处理完全模糊和概率性的人的评价数据。Slezak和Ziarko(2005)提出了一个粗糙集模型,该模型主要关注近似定义集的代数性质,并将基本的粗糙集理论扩展到概率信息。本文利用贝叶斯框架、马尔可夫链蒙特卡罗模拟和Metropolis算法将粗糙集模型扩展到概率域。为了做到这一点,塞罗格

使用道具

藤椅
nandehutu2022 在职认证  发表于 2022-4-15 10:02:57 |只看作者 |坛友微信交流群
除了HIV状态之外,每一列都代表了各自病例的变量(或条件属性),HIV状态是Eachobject的结果(也称为概念或决策属性)。结果包含1或0,这表明该特殊病例是否感染了HIV。一旦获得信息表,数据就被离散为分区。一个信息系统可以通过一对来理解),(au=λ,其中U和a分别是有限的、非空的集合,称为宇宙和属性集(Dejaand Peszek,2003)。对于A的每一个属性元素,我们将其值的集合Va关联起来,其中Vais称为A.A:U→Va(1)A的任何子集B决定U上的二元关系I(B),称为不可辨关系。粗糙集理论的主要概念是不可区分关系(不可区分的意思是彼此不可区分)。不可分辨的集合被称为基本集合,这些集合被认为是弗朗斯特对实在知识的构造块。初等集的并称为脆集,而其他的集则称为粗集或模糊集。更正式地说,对于给定的信息系统λ,那么对于任何子集AB,都有一个相关的等价关系I(B),称为bilityindiscernib-关系,表示为:)(),(biyx∈iff)()(yaxa=(2)RST提供了一个处理不可区分性的工具,它的工作方式是,对于概念/决策X,计算包含X的最大可定义集和包含X的最小可定义集。这两个集合分别称为下近似和上近似。具有相同结果变量的案例/对象集被组装在一起。这是通过查看与结果无关的特定对象属性的“纯度”来完成的。在大多数情况下,不可能将情况定义为清晰集,在这种情况下,定义了下近似集和上近似集。下近似定义为等价类完全包含在我们想要近似的情形中的情形集合(Ohrn and Rowland,2006)。集合X的下近似表示为BX,并在数学上表示为:})(:{XxBUxXB∈=(3)上近似定义为其等价类至少部分包含在我们要近似的情形集合中的情形集合。集合X的上近似被表示为:xband在数学上表示为:=∈=XxBUxX)(:{B}}(4)正是通过这些上下近似定义了任何粗糙集。在不同的文献中,下近似和上近似的定义不同,但是acrisp集只定义为XBXB=。必须注意的是,在RST的大多数情况下,生成约简是为了使我们能够丢弃功能上的冗余信息(Pawlak,1991),本文用先验概率处理约简。粗糙隶属函数描述了粗糙隶属函数;:Xau→[0,1],当应用于objectx时,它量化了集合X和X所属的不可分辨集合之间的相对重叠程度。这个隶属函数是一个度量对象x属于集合x的似然性的度量。这个隶属函数被定义为:bbxaxxx][][TM=(5)其中[x]b2是一个初等集合。粗糙集的精确性粗糙集的精确性提供了一个度量粗糙集与目标集接近程度的度量。它被定义为可以正放置在X中的物体数目与可能放置在X中的物体数目之比。

使用道具

板凳
nandehutu2022 在职认证  发表于 2022-4-15 10:03:03 |只看作者 |坛友微信交流群
换句话说,它被定义为下近似中的情况数除以上近似中的情况数;1)(0≤≤xpαxbxbxp=)(α(6)粗糙集公式粗糙集建模过程可分为五个阶段。第一阶段是选择数据,而第二阶段涉及对数据进行预处理,确保数据已准备好进行分析。第二阶段涉及离散化数据和移除不必要的数据(清洗数据)。如果考虑减少,第三阶段将使用清理后的数据生成减少。约简是我们能够辨别对象类的最简洁的方法(Witlox and Tindermans,2004)。换句话说,约简是属性的最小子集,它使宇宙元素的分类与整个属性集相同(Pawlak,1991)。为了应对不一致,定义了决策类的上下近似(Ohrn,2006;Deja和Peszek,2003)。第四阶段是提取或生成规则的阶段,规则通常基于条件属性值来确定(Goh and Law,2003)。一旦提取规则,它们就可以以if CONDITION(S)-thenDecision格式表示(Leke,2007)。最后或第五阶段包括在测试集上测试新创建的规则,以估计粗糙集模型的预测误差。用粗糙集表示输入到输出之间的映射的方程可以写成),,(rngfy=(7)其中y是输出,G是输入空间的粒度划分为高、低、中等,N是规则的个数,R是规则。因此,对于给定的粒度性质,therough集模型将能够给出最优的规则数和预测精度。因此,在粗糙集建模中,输入空间的粒度化程度(影响规则的性质和大小)与粗糙集模型的预测精度之间总是存在一种折衷关系。粗糙集模型的贝叶斯训练贝叶斯框架可以写成(Marwala,2007;Bishop,2006):()()()()()在贝叶斯粗糙集模型的上下文中,G是粒度化,R=粗糙集规则,N=规则数,D是由输入x和输出y组成的数据,A=粗糙集模型预测的准确性。参数)(DMP是给定观测数据的粗糙集模型的概率)(MDP是给定已知粗糙集模型的数据的概率,也称为似然函数)(MP是粗糙集模型的先验概率和)(DP是数据的概率,也称为证据。该证据可视为归一化常数,因此在本文中忽略不计。似然函数可以如下估计:{}1),(exp)exp()(-=-=GRNAzerrorzMDP(9)这里z是归一化常数。该问题中的先验概率与前面解释过的约简概念联系在一起,即最佳粗糙集模型是具有最少规则数(N)的粗糙集模型的先验知识。因此,先验概率可以写成如下:{}nzmpλ-=exp)((10),z是归一化常数,λ是将先验信息缩放成与似然函数大小一致的超参数。因此,给定观测数据的模型的后验概率为:{}ngrnazdmpλ-=1),(exp)((11),其中zi为归一化常数。

使用道具

报纸
何人来此 在职认证  发表于 2022-4-15 10:03:09 |只看作者 |坛友微信交流群
由于给定数据的规则数目和规则本身取决于输入空间的粒度性质,我们使用称为Markov链Monte Carlosimulation(Marwala,2007;Bishop,2006)的过程在粒度空间中进行采样。Markov Monte Carlo模拟公式11中概率分布的采样方式是用Metropolis算法生成一系列粒度向量,并根据它们的概率大小接受或拒绝它们。这个过程需要为输入空间生成大样本的颗粒,这在许多情况下计算效率不高。MCMC创建一个颗粒链,并使用Metropolis算法接受或拒绝它们。将贝叶斯方法和MCMCrough集相结合,得到颗粒的概率分布函数,进而得到粗糙集输出的分布。由这些分布函数可以计算出粗糙集模型的平均预测值和预测值的方差。用粒度表示的粗糙集模型的概率分布由等式11在数学上描述。从等式11出发,根据概率论原理,将输出参数y的分布写成(Marwala,2007):=dMDMpMxypDxyp)(),(),((12)等式12依赖于等式11,由于粒空间维数相对较高,很难解析求解。因此,方程12中的积分可以近似为:∑-+=π~)(LRIiiMFLy(13)这里F是给定输入的输出的数学模型,是贝叶斯粗糙集模型的平均预测,R是为了达到方程11中描述的平稳后验分布函数而被丢弃的初始状态数,L是保留状态数。本文根据Metropolis等人提出的方法,通过对粒向量{g}引入随机变化,并对其状态进行接受或拒绝,对由随机变量{g,g,…,gn}组成的随机过程进行采样,实现了MCMC方法。算法给出了两个处于过渡状态之间的后验概率的差异(Metropoliset al.,1953)。该算法保证了概率较高的状态占马尔可夫链的大多数,数学上表示为:IF)()(dmpdmpnn>+然后接受1+nm,(14)否则接受IF>+)()(DMPDMPnnwhere]1,0[∑(15)否则拒绝并随机生成另一个模型1+nm。实验研究:HIV的建模应用所提出的方法建立了一个利用人口统计学特征估计HIV风险的模型。在过去20年中,超过6000万人感染了艾滋病毒(人体免疫缺陷病毒),其中95%在发展中国家(Lasry et al,2007)。HIV已被确定为艾滋病的病因,早期HIV/AIDS的研究主要集中在个体特征和行为上,不确定HIV的风险和费用,Krieger(1993)将其称为生物医学个人主义。但是已经确定,研究健康结果的分布及其社会决定因素更为重要,这被称为社会流行病学(Poundstone et.al.,2004)。

使用道具

地板
大多数88 在职认证  发表于 2022-4-15 10:03:15 |只看作者 |坛友微信交流群
本研究使用贝叶斯方法建立的粗糙集模型和蒙特卡罗方法训练的粗糙集模型来确定HIV的风险。以前,计算智能技术被广泛用于分析HIV,Leke et al(2006,2006,2007)使用自动编码器网络分类器、反向网络以及传统的前馈神经网络来估计人口因素的HIV风险。虽然AutoEncoder方法具有很好的准确性,但由于它的“黑箱”性质,即它的不透明,它是不利的。为了提高透明度,贝叶斯粗糙集理论(RST)被用于预测和解释HIV的因果效应。粗糙集已被用于各种生物医学和工程应用(Ohrn,1999;Pe-a et.al,1999;Tay and Shen,2003;Golan and Ziarko,1995)。Rowland et al(1998)将RST和神经网络用于脊髓损伤的预测进行了比较,虽然神经网络方法得到了更准确的预测结果,但其“黑箱”性质使得使用规则提取问题不切实际。Poundstone等人(2004)将人口学特性与HIV的传播联系起来,在他们的工作中,他们证明了使用人口学特性来创建一个模型,从给定的数据库中预测HIV的传播,就像在本研究中所做的那样。为了获得较好的精度,需要选择合适的粗糙集划分或离散化过程,这是通过在粒度化空间中进行采样,并使用Metropolis ET接受具有较高后验概率的样本来实现的。算法(1953)。本文使用的数据集来自2001年南非产前血清流行率调查(卫生部,2001)。这些数据是通过在选定的公共诊所就诊的孕妇填写的问卷获得的,并在南非所有九个省同时进行。所考虑的六个人口变量是:种族、母亲年龄、教育、妊娠、生育和父亲年龄,结果决定是艾滋病毒阳性还是阴性。HIV状态是Decision,以二进制形式表示为0或1,其中0代表HIV阴性,1代表HIV阳性。输入数据被分成四个分区。选择这个数字是因为它在计算效率和准确性之间提供了很好的平衡。父母的年龄是给定的,并相应地离散,教育是整数,其中13是最高的教育水平,表示高等教育。妊娠定义为妇女怀孕的次数,生育的次数定义为妇女生育的次数。必须注意的是,怀孕期间的多胎指的是一胎。怀孕和生育也很好地表明了南非孕妇的生殖健康。采用Metropolis ET在输入空间中进行抽样和接受或拒绝训练粗糙集模型。算法(1953)。

使用道具

7
大多数88 在职认证  发表于 2022-4-15 10:03:22 |只看作者 |坛友微信交流群
表2中显示了示例输入空间和默认值。表2:输入空间划分为Low、Med、High和Very Highlowamedbhighbmedc…HighdLowehigheAccuracyNumberRules 331.256.861.77…4.1510.3728.8157.52226.007.8320.491.454.991.13…3.365.0023.7062.54283.002.6825.314.986.240.32…3.720.7914.9756.37204.00,由于许多调查都有不完整的条目,因此这些情况将从数据集中删除。第二个不正常的情况是错误的信息,例如一个妊娠(怀孕次数)为零而胎次(分娩次数)至少为一的例子,这是不可能的,因为对于一个已经分娩的妇女来说,她必须没有怀孕。这类案件已从数据集中删除。13087例病例只剩下12945例。因此,输入数据是前面解释的人口特征,输出是艾滋病毒的可能性,1代表100%的可能性,一个人是艾滋病毒阳性,-1代表100%的可能性,艾滋病毒阴性。在使用马尔可夫链蒙特卡罗训练粗糙集模型时,接受和保留了500个样本,即500个规则集,每个规则集包含50至550个规则,平均222个规则,可见Infigure1。由于模拟收敛于平稳分布,因此保留了500个样本。这个数字必须根据计算后验概率的事实来解释,我们使用了更少的规则比更多的规则更可取的知识。因此,贝叶斯粗糙集框架能够选择除划分大小之外的规则数量。图1:规则数量的分布,获得的平均准确率为58%,而获得的准确率从50%到66%不等,从图2可以看出。图2:显示获得的准确率与出现频率的直方图。传统粗糙集给出了一个人HIV阳性的可能性,如0.46(46%)。贝叶斯粗糙集方法允许我们确定我们对这种可能性有多有信心。例如,图3显示,达到的平均可信度为-0.48,表明一个人是艾滋病毒阴性的可信度为48%。此外,正如图3所示,我们可以确定这种可能性的概率分布。这实质上表明,贝叶斯粗糙集模型允许我们用概率术语解释粗糙集模型的预测,如图3中的概率分布所示。图3:艾滋病毒阴性结果的可获得性分布。规则提取一旦将贝叶斯RST应用于艾滋病毒数据,就可以提取出独特的可区分情况和不可区分情况。在12945个病例的数据集中,在可能的4096个唯一组合中,数据只显示了452个病例。下近似情形是总是成立的规则,或者是确定的情形,而上近似情形只能用一定的似然性来陈述。从本文的方法中提取的这两种情况的例子如下:下近似规则1。如果种族=非洲人,母亲年龄=23,教育=4,妊娠=2,生育=1,父亲年龄=20,那么艾滋病毒=最有可能是阳性2。如果种族=亚洲人,母亲年龄=30岁,受教育程度=13,妊娠率=1,胎次=1,父亲年龄=33,那么艾滋病毒=很可能是负值。如果种族=肤色,母亲年龄=33,教育=7,妊娠=1,胎次=1,父亲年龄=30,那么艾滋病毒=阳性,似然性=0.333332。

使用道具

8
能者818 在职认证  发表于 2022-4-15 10:03:28 |只看作者 |坛友微信交流群
如果种族=白人,母亲年龄=20,教育程度=5,妊娠率=2,家庭条件=1,父亲年龄=20,则HIV阳性,似然性=0.06666结论:用贝叶斯框架建立粗糙集。然后用马尔可夫链蒙特卡罗方法对它们进行训练。贝叶斯框架为粗糙集提供了概率解释。在粗糙集模型的透明性和HIV估计的精确性之间取得了平衡,并用了大量的计算工作。毕晓普,C.M.,2006年。模式识别与机器智能。斯普林格,柏林,德国。Deja,A.,Peszek,P.,2003年。粗糙集理论在多阶段医学诊断中的应用。原教旨主义信息,54,387-408.3。卫生部,2001年。对在南非公共产前诊所就诊的妇女进行的全国艾滋病毒和梅毒血清流行率调查。http://www.info.gov.za/otherdocs/2002/hivsurvey01.pdf.4。Fee,E,Krieger,N.,1993年。理解艾滋病:生物医学个人主义的历史解释和极限。美国公共卫生杂志,83,1477-1486.5。Goh,C,Law,R,2003年。将粗糙集理论引入旅游需求分析。旅游管理,24,511-517.6。戈兰,R.H.,Ziarko,W.,1995年。一种利用粗糙集理论进行股票市场分析的方法。《金融工程计算智能论文集》,纽约,美国,32-40.7。Greco S.、Matarazzo B.、Slowinski R.,2006年。参数化粗糙集的粗糙隶属度和贝叶斯确认度量。国际光学工程学会学报,6104,314-324.8。Greco S.、Pawlak Z.X.、Slowinski R.,2004年。贝叶斯确认度量对粗糙集决策规则有用吗?人工智能的工程应用,17(4),345-361.9.Inuiguchi,M.,Miyajima,T.,2006年。基于粗糙集的两个决策表的规则归纳。欧洲运筹学杂志,(正在出版)。Lasry,G,Zaric,S,Carter,M.W.,2007年。HIV预防的多层次资源分配:发展中国家的模式。欧洲手术研究杂志,180,786-799.11。Leke,B.B.,2007年。模拟HIV的计算智能。博士。论文,南非威特沃特斯兰德大学电气与信息工程学院。Leke,B.B.,Marwala,T.,Tettey,T.,2006年。用于HIV分类的自动编码器网络。《当代科学》,91,1467-1473.13。Leke、B.B.、Marwala、T.、Tettey、T.,2007年。应用逆神经网络进行HIV自适应控制。国际计算智能研究杂志,3,11-15.14。Leke,B.B.,Marwala,T.,Tim,T.,Lagazio,M.,2006年。利用神经网络从人口学数据预测HIV状态。IEEE系统、人和控制论国际会议论文集。台湾,2339-2344.15。T.Marwala,2007年。用遗传程序设计神经网络的贝叶斯训练。《模式识别文集》,http://dx.doi.org/10.1016/j.patrec.2007.03.004(出版中)。S.Malve,R.Uzsoy,2007年。具有动态作业到达和不相容作业族的并行相同批处理机的最大延迟最小化遗传算法。计算机与运筹学,34,3016-3028.17。Metropolis,N.,Rosenbluth,A.W.,Rosenbluth,M.N.,Teller,A.H.,Teller,E.,1953。用快速计算机机计算状态方程。化学物理学杂志。21,1087-1092.18。Nishino T.,Nagamachi M.,Tanaka H.,2006年。变精度贝叶斯粗糙集模型及其在人类评价数据中的应用。国际光学工程学会学报,6104,294-303.19.Ohrn,A.,1999年。

使用道具

9
mingdashike22 在职认证  发表于 2022-4-15 10:03:29 |只看作者 |坛友微信交流群
医学中的识别与粗糙集:工具与应用,挪威科技大学计算机与信息科学系博士论文。Ohrn,A.,Rowland,T.,2007年。粗糙集:一种知识发现技术。美国物理医学和康复杂志。Pawlak,Z.,1991年。粗糙集:数据推理的理论方面。KluwerAcademic Publishers.Pe-a,J.,Ltourneau,S.,Famili,A.1999年。粗糙集算法在飞机部件故障诊断中的应用。载于《第三届智能数据分析国际研讨会论文集》,阿姆斯特丹。Poundstone,K.E.,Strathdee,S.A.,Celentano,D.D.,2004年。《人体免疫机能丧失病毒/后天免疫机能丧失综合症的社会流行病学》。26,第22-35页,2004.24。Rowland,T.,Ohno-Machado,L.,Ohrn,A.,1998年。脊髓损伤后步行的多种预测模型的比较。降落伞,31,528-532.25。Slezak D.,Ziarko,W.,2005年。贝叶斯粗糙集模型的研究。国际近似推理杂志,40(1-2),81-91.26。Tay,F.E.H.,沈。L.,2003年。基于粗糙集理论的故障诊断。人工智能的工程应用,16,39-43.27。Witlox,F.,Tindemans,H.,2004年。粗糙集分析在基于activitybased建模中的应用:机会与约束。带应用程序的专家系统,27,585-592。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-11 18:28