楼主: JMPer
6205 31

[原创博文] 运用文本挖掘,提炼商业价值 [推广有奖]

  • 1关注
  • 31粉丝

合作版主

教授

86%

还不是VIP/贵宾

-

威望
0
论坛币
18143 个
通用积分
5.4451
学术水平
92 点
热心指数
91 点
信用等级
86 点
经验
40716 点
帖子
698
精华
4
在线时间
806 小时
注册时间
2014-7-24
最后登录
2023-7-14

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

FMC-Technologies-Bags-Three-Year-Contract-From-Pemex.jpg

通过文本挖掘,我们可为相似问题分类,即使它们的书面表达方式不同……这种方式有助实现重大转变。——Dan Fortune,FMC科技



运用文本挖掘,提炼商业价值


钻探设备制造商FMC科技利用JMP®实现工艺优化



挑战:分析生产绩效数据,从而实现石油与天然气采集设备设计与生产效率的提高、任务优先级的划分。采用灵活便捷的数据分析软件,实现六西格玛和公司职能需要用到的其它分析功能。

解决方案:JMP软件助力FMC科技分析文本和数值型数据,以构建更加详尽、细致的运营模式图。JMP还可用于质量控制培训、成本研究及其它领域。

结果:定制化的JMP应用程序支持个性化文本挖掘与JMP分析法的创造性结合,给予制造业客户为与全球运营目标保持一致而需要的精确信息。



通常,制造工程师会花大把时间将数字吃透,以确保生产和效率水平始终处于高峰。而今,一家总部位于美国休斯顿的石油设备生产公司的管理者们发现,分析对象除了数字,还可以是文字。结合对这两者的分析,可令制造工艺更加优化。


“我们始终期望改进运作模式,使其变得更好、更高效。”FMC科技的全球业务卓越经理DanFortune如是说,“而我们发现,文本挖掘能帮助我们有效实现这一目标。”文本挖掘需将单词与词组基于共性进行分类。在FMC科技,这些由制造报告中提取出的字词,将由SAS公司的统计发现软件JMP进行编码及分析。


FMC科技是全球石油与天然气设备(包括海底采油、地面井头、海洋装卸作业等专业系统)工业领导者,其生产的一些设备具备在海底近两英里左右深处运行的性能。精确分析工程设计及产品性能,是制造商须长期具备的技能——因为原设计在安装时需调整,所以常易成为可变因素。在FMC,遍布16个国家的30处生产设施需要持续分析与故障排除的服务。


1.jpg


运用JMP软件分析生产报告中包含的字词,帮助FMC掌握了其全球范围内生产设施的潜在质量问题。




“制造商有很多,可我们是海底设备制造商中的佼佼者。”Fortune表示。Fortune表示,在过去几年中,FMC科技运用JMP软件的统计和图形分析法,使生产工艺更加高效,并大幅节约了成本。


“如果我想知道2013年的所有生产缺陷区域,两个员工可能要奋斗整整一周,才能做好。但有了JMP,我15分钟就可以搞定,还可以反复实验、研究,或者以不同的视角来查看结果。”Fortune说。



文本挖掘:额外优势


对工程师们来说,研究数字是很自然的,但在分析中加入字词能获取额外信息,有助于改善优先次序及问题解决型任务。FMC西部地区海底系统规划经理GokhanSarpkaya如是说。


“我们的目标是减少或消除变异。”Sarpkay表示,“文本数据在这方面具有优势。它能让我们的分析更加深入,有助于决策者做出更优决策。”


2.jpg

为了对生产报告的内容进行分类与分析,FMC将如图所示的JMP定制脚本与开源代码的统计与图形分析软件R配合,实现所需的文本挖掘功能,随后将所得结果返回JMP,进行进一步分析与可视化(见图)。


用于分析的文本是从公司数据库内的书面描述中取得,用以标识生产流程中的问题、不规律性或其它情况。“当问题发生的时候,对于它的书面描述通常十分准确。”Fortune说,“通过文本挖掘,我们可为相似问题分类,即使它们的书面表达方式不同。这样我们就能找出未达到应有水平的项目。这种方式有助实现重大转变。”


Fortune可运用JMP选取文本,并使用咨询公司Adsurgo提供的JMP定制脚本,将数据发送至开源代码的统计与图形分析软件R,实现所需的文本挖掘功能。所得结果将被返回JMP,以便进行进一步分析与可视化。该脚本允许用户自定义JMP数据在R软件中的处理方式,且无需编码。


3.jpg

为了对生产报告的内容进行分类与分析,FMC将如图所示的JMP定制脚本(前图所示)与开源代码的统计与图解分析软件R配合,实现所需的文本挖掘功能,随后再将所得结果返回JMP,进行进一步分析与可视化(本图所示)。


Fortune表示,文本挖掘功能解决了“词干”和“停用词”问题,使分析结果更加精准。为了解决词干问题,每个单词都被拆解到词根,不论它们在特定句子中呈现何种形式。例如,“正在行走”“行走过”和“行走着”都可由词干“行走”统一归类。“同一词干的词,结尾虽不一样,表达的意思却是一致的。”Fortune这样解释。


而停用词,则会在分析开始前从文本中剔除,因为它们对文本内容并不构成实际意义。这类词包括定冠词、代词、“在……上”等之类的介词。“我们用R来降低文本数据的复杂度,并将其构成一个数字矩阵,以便JMP的后续分析操作。这就是奇异值分解法。”


Fortune表示,“R将数据返回到JMP,JMP则完成所有的分析工作。”一旦执行以上操作,文本中出现的相似语句就会被分类、添加到专供JMP分析的数值型数据中。


4.jpg

JMP软件分析生产报告,而后在文字云中展示出来,并突出高频词汇和关键活动描述用词。这一过程可帮助分析师快速判别最具普遍性的问题。


文本分析能帮助解决数字系统中经常弹出的错误。Fortune说:“编码与文本不匹配的情况常常发生。”Fortune还表示,如数字编码分类太宽泛,对某一问题的具体判断无法获准取得编码,就会出现错误。另外,如编码过于具体,导致系统对指定条目的正确名称决策混乱,也会出现错误。“编码过多,将给数据录入人员的工作带来困难,使他们无法正确进入条目。”


用图形分析文本与数据,让管理者们得以在重复性操作过程中发现趋势,例如:从预期起止时间与实际起止时间之间的差异,以及由于个人行为而产生的品质不等。在FMC,这些原本都被视作艰巨任务。“如果我有五个项目,其中包含15000个活动,也就意味着它们包含着75000个条目。”Fortune解释道。


“对于人来说,要投身如此巨大的数据中,并结合传达相同意义的不同文本作出分析,基本上是不可能的。但运用文本挖掘与聚类分析,虽也要用一些时间,但比起‘近乎不可能’来已是很好了。”



转向JMP®


JMP还是FMC公司项目优先级划分的重要软件。项目优先级划分是保持领先竞争力的一个重要步骤。此外,JMP也被培训主管们运用于六西格玛项目,以保障生产成品质量,降低成本、提高客户满意度。Sarpkaya说,在去年转用JMP之前,他已用Minitab软件对新用户培训六西格玛体系长达十年。


“我十分乐意转用JMP。”他说,“这款软件的客户定制程度较高。你可以撰写自己的文本,这样更灵活。”


5.jpg

如图所示,FMC科技公司生产的设备,通常用于拓展现有的海底项目,或者在有些只装配传统设备、会被视作不切实际的条件下启动新项目。


Fortune说,他极力支持在FMC公司的六西格玛项目中使用JMP软件,因为他曾在之前就职的公司里运用JMP软件,并认为其功能卓越。此前,Fortune曾以一个项目为FMC节省了大量成本;这有助于FMC的高管们认同JMP软件。


Fortune说,能源业的设备造价高昂、体积庞大,有些仅零件就重达80吨;而被认定有缺陷、不可靠的零件必须报废,因此FMC公司在某些工程案例中为单个零件就花费了25万美金或更多。2011年进入董事会并担任质量部门领导后,Fortune对判定设备服务期限的测量方法存在怀疑,便运用JMP做了一次分析。


“我运用JMP的图形分析功能计算出结果,并向公司里许多完全不懂统计技术的人展示,成功地让他们明白:这中间存在许多问题,我们需要第三方对零件进行评估。”随后的第三方评估结果显示,一些曾被指明报废的零件是可靠的,可以回归使用。其中两个零件的总价值达到40万美元。由此,Fortune为FMC公司节省了近50万美元的成本。


不过,Fortune表示,JMP的最大优势在于其提升FMC公司“满足客户期望”能力的方式。“我们公司生产的海底设备,设计几乎全都是独一无二的。”他这样解释,“但我们也制造地面设备,这在市场上的竞争激烈得难以想象。所以,进行精准预测以确保永远满足客户的需求,对我们来说就尤为重要。”



关于JMP

JMP敏捷分析成就无限。

JMP是全球顶尖的数据分析解决方案供应商,致力于帮助人们从数据探索、分析与挖掘中,快速发现隐藏在数据中的秘密与价值,从而改善决策、提升质量和生产力、改善业务流程、优化供应链、提高运营效率和客户满意度、降低运营成本,扩大利润与市场份额,实现创新,提速研发,以及……成就无限。

JMP拥有超过20万全球用户。欲知三十年多来JMP如何帮助客户以敏捷分析成就无限,请访问:www.jmp.com/china




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:商业价值 文本挖掘 Fortune MiniTab 数据分析软件 美国休斯顿 解决方案 应用程序 表达方式 工程师

已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
kongqingbao280 + 40 精彩帖子
长风神舞 + 22 精彩帖子
zl89 + 60 精彩帖子
我的素质低 + 100 + 50 + 2 + 2 + 2 精彩帖子

总评分: 经验 + 222  论坛币 + 50  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

本帖被以下文库推荐

沙发
Edwardu 发表于 2015-7-2 22:05:09 |只看作者 |坛友微信交流群
赞一个,好文

使用道具

藤椅
Crsky7 发表于 2015-7-2 22:15:29 |只看作者 |坛友微信交流群
文本挖掘技术哪家强

使用道具

板凳
lnulxg 发表于 2015-7-3 06:34:13 |只看作者 |坛友微信交流群
值得学习和研究

使用道具

报纸
searchet 发表于 2015-7-3 06:56:27 |只看作者 |坛友微信交流群
没想到JMP这么具有商业价值。。。

使用道具

地板
yuyike 发表于 2015-7-3 07:34:22 |只看作者 |坛友微信交流群
好好好

使用道具

7
ydb8848 发表于 2015-7-3 08:07:03 |只看作者 |坛友微信交流群

使用道具

8
zhuafeng2008 发表于 2015-7-3 08:12:55 |只看作者 |坛友微信交流群

使用道具

9
pilk123 发表于 2015-7-3 08:23:27 |只看作者 |坛友微信交流群
不大懂,路过看看

使用道具

10
jiangyong2004 发表于 2015-7-3 08:33:54 |只看作者 |坛友微信交流群
学习一下,哈哈,不错

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 05:28