楼主: 时光永痕
3225 0

[数据挖掘新闻] 模糊引导匹配 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

77%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-8

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
抽象的
本文讨论了在文件之间不存在关键字段的情况下合并数据文件的技术。本文将说明解决大多数模糊匹配技术常见的两个问题的方法:1)如何加权代理标识符字段,以及 2)如何测量合并估计算法的第一类和第二类错误。

介绍
分析中的一个常见要求是合并两个或更多大型信息集中的记录(即,即使不是数百万条记录,也有数千条记录),其中不存在用于匹配信息集之间记录的精确键。当两个数据集之间不存在确切的键时,常见的合并解决方案是使用“模糊”匹配。“模糊”匹配使用代理键作为替代键来匹配两个数据文件之间的记录。


“模糊”这个名字来自于合并准确性的不确定性。使用“模糊”匹配,记录的某些链接可能是错误的和/或某些有效的合并将被遗漏。因此,特定的“模糊”匹配可以是真或假,分析员不确定匹配的确定性,即匹配是“模糊的”。在统计术语中,模糊匹配具有第一类(假阳性)和第二类(假阴性)不确定性。

通常情况下,分析师可能有多个代理键可供“模糊”合并选择。发生这种情况时,必须解决第二个问题。哪些代理键将优化两个文件中记录的合并?例如,假设分析师有以下代理键可供选择:姓氏、社会保险号和住所邮政编码。哪种代理密钥组合会产生最佳匹配?

有很多方法可以解决这些问题。然而,所有“模糊”技术都有相同的两个问题:a)什么是匹配错误,以及 b)代理数据字段和这些代理字段上的权重是什么,这将使“模糊”匹配最大化。因此,大多数“模糊”匹配在其准确性方面具有高度的不确定性。

在本文中,我将通过将引导方法应用于“模糊”匹配来解决这两个问题。

自举

自举是通过在从近似分布中采样时测量这些属性来确定估计量(例如回归系数)的属性的做法。它也可以用于构建假设检验。当这些假设无法计算时,例如使用“模糊”匹配,它通常用作基于参数假设的推理的替代方案。
bootstrapping 的基本思想是样本参数是我们对抽取样本的总体参数的最佳猜测。例如,假设我们对“模糊”匹配两个数据文件并确定“模糊”匹配的准确性和代理匹配字段的建议权重感兴趣。如果我们无法获得整个人口的这些估计量,我们也许能够获得该人口样本的这些估计量。bootstrap 的关键原理是提供一种方法,以获取的样本为基础,模拟来自未知群体的重复观察。
例如,假设分析师可以正确匹配两个数据文件之间的某些记录。许多人口在数据文件中至少有一些记录具有唯一标识符。例如,社会安全号码、Medicare 身份证号码、Medicaid 身份证号码、退伍军人身份证号码等。假设我们的两个数据文件对于某些记录具有相同的唯一标识符。我们可以使用这些标识符在我们的两个数据文件中为同一个人找到相应的记录。然后可以使用这两个群体的正确匹配样本来计算代理权重以及建议的“模糊”匹配群体的第一类和第二类错误。

概率回归
“模糊”匹配技术的一个常见问题是如何验证匹配的数据。使用 bootstrap 样本,根据定义可以知道正确的匹配。因此,我们可以使用样本数据来检验我们生成的模糊匹配回归方程的准确性。在本文中,我建议通过针对未用于创建模型的部分样本数据评估模型来测试从概率回归模型创建的模型中的错误。引导样本应随机分成两部分。一部分用于创建估计系数,第二部分(以下称为保持样本)用于生成第一类和第二类错误率。
准确性是通过记录是否在保留样本中使用由蒙特卡洛过程创建的概率系数正确分类来衡量的。有四种可能的分类:
1. 当保留样本记录不匹配时预测不匹配(True Negative)
2. 当保留样本记录匹配时预测不匹配(False Negative) 类型二错误
3. 预测保留样本记录不匹配时的匹配(假阳性) 第一类错误
4. 保留样本记录匹配时的匹配预测(真阳性)
保留样本中正确分类的观测值的百分比称为评估的模型准确度。此外,您可以使用样本数据通过提高或降低定义一组记录是否匹配的概率来改变第一类和第二类错误的大小。可以根据需要将该概率从 0.50 更改为 0.75、0.90、0.95 或 0.99。如果避免第一类或第二类更重要,则第一类和第二类错误率的不对称可能是相关的。例如,假设您要将患者的医疗记录合并为一个记录。在此示例中,避免第一类错误可能更重要,而避免第二类错误则不太重要。

引导程序的步骤
1. 更正样本唯一匹配键上的所有错误数据
2. 通过代理标识符匹配两个数据集
3. 用 M=1 表示匹配的记录
4. 要创建不匹配的样本记录,请获取两个数据集中的剩余记录并通过所有可能的代理匹配指标进行匹配。
5. 删除任何一个代理指标在两个数据集中匹配的所有记录。请注意,许多标准可能包含不被视为匹配的缺失值。
6.剩余的不匹配记录将被表示为不匹配,M=0
7.将匹配的记录分成两等份。对 Unmatched 记录执行相同操作。
8. 将匹配记录的一半与不匹配记录的一半合并,并将其标记为用于计算回归参数的 Bootstrap 样本。
9. 合并剩余数据,并将这些记录指定为 Hold Out 样本,用于计算模型的第一类和第二类错误。
10. 结合 Bootstrap 和 Hold Out Samples 并表示为 Sample data S=1。
11. 将样本数据与剩余的记录群结合起来,并将这些记录表示为不在样本 S=0 中。
12. 通过识别可能与记录是否在样本中相关的数据字段来计算选择样本偏差。
13. 我建议使用 SAS 程序 SAS® QLIM 来计算样本的样本选择偏差,因为 QLIM 会在多元概率模型的输出文件中生成逆米尔斯比率作为选项。我使用 SAS® 进行测试,但您可以使用其他统计软件,例如具有类似统计程序的 R。
14. 接下来,制作一系列指示变量,表示一个数据集中的数据字段值是否与示例文件中另一个数据集中的数据字段匹配。
15. 使用步骤 14 中的这些指标字段和步骤 13 中计算的米尔斯比率,使用 SAS® LOGISTIC REGRESSION PROCEDURE 估计因变量 M(1=匹配,-1=不匹配,0=空白数据)。
16. 我推荐使用逻辑回归过程,因为它提供了几个有用的特性:
一种。PROC LOGISTIC 计算伪 R2;
湾。LOGISTIC PROCEDURE 比 PROC QLIM 运行得更快;
C。您的模型可能具有准完全分离,需要在估计模型之前进行校正。准完全分离发生在至少一组因变量对于至少一类自变量的频率为零的情况。准完全分离会导致模型收敛失败,从而导致潜在的偏差结果。PROC LOGISTIC 包括 Firth 惩罚似然法选项来纠正此问题(有关此方法的更多信息,请参阅 Georg Heinze (2002 Statistics in Medicine 21:2409-2419 和 2006 25:4216-4226)
。d. 您可以指定使用概率模型而不是逻辑模型。
17. 使用来自完整样本总体的新随机样本重复步骤 13、14、15 和 16。继续重复抽样,直到回归系数的移动平均值渐近线为止。
18. 估计过程完成后,将模型系数应用于已放置在“保留”文件中的样本数据。
19. 保留估计值用于计算模型的幂函数以及第一类和第二类错误。使用此信息,您可以优化匹配概率以最小化第一类和第二类错误。
20. 最后,将估计模型应用于样本中没有的数据文件记录,并确定该模型估计了多少匹配项。

结论

本文的目的是演示一种基于统计的模糊匹配方法。这种方法的适用性与几个标准相关:1)您需要使用许多记录,2)您必须有几个备用匹配标准(即姓名、地址等)才能匹配,以及 3)合理的数量的记录没有您匹配的指示符字段的缺失信息。如果您的数据可以满足这三个标准,那么您可能需要考虑这种方法来解决您的模糊问题。

编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Statistics regression Bootstrap Procedure unmatched

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-8 21:26