楼主: 滨滨有利123
653 0

长见识了|新闻数据信息的解析竟也能应用于风控 [推广有奖]

  • 0关注
  • 31粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
383 小时
注册时间
2015-4-26
最后登录
2024-7-21

楼主
滨滨有利123 发表于 2022-6-7 21:18:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
平日生活里,我们每天都会浏览一些新闻资讯,比如英超某足球俱乐部夏窗引进一位球星、某电商公司上线使用人工智能配送系统、某上市公司近日股票呈现持续下跌趋势、某互联网平台与政府达成区域创新合作等,这些新闻资讯让我们在不同领域里了解到不断更新的信息,当然,这是我们生活中必不可少的一部分。

对于中小微企业,在日常经营的活动中,必然也会有很多相关的动态信息,尤其是相对有一定规模的企业,往往在新闻圈子里有相关信息的体现。本文想和大家分享的是,针对企业画像的风控评估,新闻媒体信息的数据也有着很独特的应用价值。虽然新闻数据不像工商、税务、财务等维度数据那样指标结构比较清晰,但通过合理的数据挖掘方法采集到相关字段,那么新闻信息在企业风险画像方面,会起到非常有效的作用。




1、新闻样例解析

我们首先来看一个新闻信息的实际样例,简单了解下其中重要的参考字段和应用思路,具体如图1所示:

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                          图1 新闻数据样例(负面)




由上图示例可以直观了解到,从事件的性质来讲,这是一条负面信息,具体属于企业“资本财务”的细化维度,直接在“同比减少”的关键字上可以体现出事件好坏的客观属性。如果从银行、政府、投资等机构角度来评估该企业综合风险的话,这条新闻媒体信息自然是一项风险数据,说明企业当前或历史的经营状况存在一定负面情况,类似样例的事件内容是非常具有参考性的。

接下来我们再来看一个正面新闻信息样例,如图2所示。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                            图2 新闻数据样例(正面)




类似图1的分析思路,对于企业来讲,这是一条正面信息,在“设立”等字眼上可以体现出企业在“业务发展”维度的能力,这对企业的特征画像描述也是非常有价值的。此外,还有一类中性的新闻信息,从文本难以直接判断信息的好坏程度。对于新闻信息“正面”、“负面”、“中性”的分类,加工逻辑是在新闻文本信息的基础上,通过关键词搜索进行判断,各类属性的关键词举例如下:

(1)正面:同比增长、签订、举行、预增、投建、收购、落地、发明专利等;

(2)负面:同比下降、违法、减持、亏损、召回、质押、辞职、下降等;

(3)中性:投入使用、上市交易、担保、维持、拟成立、解除质押等。

此外,新闻信息的获取渠道是非常多的,对于三方数据提供方来讲,具体也要根据企业所属的行业类型进行适当区分,以前边样例企业来讲,新闻来源可以包括新浪网、凤凰网、搜狐网、中财网、腾讯网、华讯财经、南方财富、网易新闻等。

对于一家企业的日常经营活动,信息量是非常大的。在实际场景中,若获取企业在某段时间窗有价值的新闻信息数据后,具体是通过主体名称、发布日期、事件性质、风险类别等方面进行加工处理,从而可以得到具体的新闻数据标签,这样就能较方便地实现企业舆情信息的客户画像。在信贷领域中,对金融机构来说,这在企业评估的风控体系中是非常需要的。

结合以上图1、2的新闻样例,我们列出数据机构方针对一条具体的新闻信息数据,经过数据挖掘得到的主要字段有哪些,如图3所示。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                                图3 新闻数据特征




2、新闻数据应用

熟悉了企业新闻信息数据的类型之后,接下来我们重点介绍下新闻数据的应用,具体通过可视化图表来进行说明,这也是企业风险画像描述的主要特点。假设我们获取了某企业的新闻数据,并且通过前边介绍的数据解析逻辑得到相关字段(图3),那么针对企业的舆情信息,我们可以有一个整体描述,例如:

企业在观察期内,共有互联网新闻信息7309条,其中负面信息1839条,正面信息4494条,中性信息976条。在负面信息中,资本财务类106条、产品运营类218条、团队人力类61条、技术知产类19条等。根据具体类型与数值分布,进一步可以通过图表直观展现,如图4所示。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                               图4 企业新闻信息分布




由于每条新闻数据都会有字段“发布时间”,因此可以结合事件级别(正面、负面、中性),加工得到以时间维度进行细化的特征标签,这在风控策略规则的加工,以及数据建模变量的筛选等方面,具有很好的应用之处,现举部分字段样例如图5所示。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                               图5 新闻信息特征字段




根据以上字段,通过求和、同维占比、异维占比、差分、差比等统计学方式,可以进一步扩大特征变量池,这在实际场景应用中是非常有帮助的。当得到一定数量且符合业务需求的特征字段后,无论是策略规则字段,还是模型特征变量,都可以结合具体情况进行选择。例如,特征“近6个月负面新闻信息的数量”,在信贷产品的风控策略模块中,可以通过设定某个阈值构造成一条风控流程的准入规则:“近6个月负面新闻信息的数量>10时,拒绝”,这种加工思路与应用方式在其他数据维度上也是很常见的。当然,每个规则的加工都需要通过实际数据表现分析决定的。同时,根据某个时间窗的统计数据,可以采用可视化图表来直观体现,如图6所示。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                             图6 时间维度信息分布



此外,由于新闻信息的获取可以来源不同的渠道平台,这样可以通过对平台类型的区分,来汇总出相关类型数据,这对企业画像的细节描述与风险评估会有更好的参考性,可视化样例如图7所示。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

                                                              图7 平台维度信息分布




综合以上内容,大家基本熟悉了企业新闻媒体数据的挖掘方法与应用思路,无论是特征字段指指标,还是可视化图表分布,在企业信贷大数据风控体系中,都会对风控效果的提升都会有较好的应用价值。最后,我们结合本文内容再简单总结下企业新闻数据的应用过程:

(1)根据获取的新闻文本数据,采用标签形式挖掘相关字段,例如企业名称、发布日期、事件属性、风险类别等;

(2)重点结合发布日期、风险类别等特征,加工数量、占比、差分等统计学维度的特征变量池;

(3)通过对特征变量的区分度、稳定度等分析,选择效果较好特征作为策略规则、模型变量等字段;

(4)采用合适的可视化图表,将部分具有业务分析意义的字段分布进行展示,以应用在企业画像分析报告。

为大家进一步熟悉本文关于企业新闻媒体信息数据的应用,我们准备了一份比较规范的企业互联网新闻数据征信报告,供各位小伙伴参考学习,详情请大家移步至知识星球查看相关内容。

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

[backcolor=rgba(18, 18, 18, 0.5)]​




编辑切换为居中




添加图片注释,不超过 140 字(可选)

...

~原创文章


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘方法 关键词搜索 Back 新闻媒体 特征变量 风控大数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-17 04:55