2017年中国数据分析师行业峰会:大数据与人工智能_分会场(六)
第四届中国数据分析师行业峰会
主题:大数据与人工智能—分会场6
时间:2017年7月29日(下午)
地点:中国大饭店
内容:
主持人:大家好!现场尊敬的各位来宾,2017年CDA中国数据分析师行业峰会再过十分钟就正式开始,请您尽快入座!并将手机调整成静音。现场尊敬的各位企业嘉宾,我们亲爱的现场观众朋友们大家下午好。欢迎各位回到我们2017年中国数据分析师行业峰会—大数据与人工智能分论坛的现场;再次我代表主办方对各位的到来表示由衷的感谢和热烈的欢迎,谢谢各位。
下午的环节当中大家可以针对大数据与人工智能进行具体的探讨。今天下午分论坛的分享嘉宾有王琼(武汉大学镝次元数据新闻研究中心负责人)、李英伟(IBM机器学习&数据科学专家)、单艺(猎聘网首席数据官)王昊(北京极海纵横信息技术有限公司CEO)、罗飞(智众互动CEO、技术达人)、由天宇(亿欧公司副总裁、智库研究院院长),接下来大数据与人工智能的分论坛现在开始,现在有请王琼为我们带来数据算法与媒体创新的主题分享,有请。
王琼:大家好,我是王琼,今天非常高兴能够有机会在这里和大家交流;我们实验室对于数据算法和媒体创新方面的研究,媒体和每个人的生活方式息息相关,回顾媒体发展的历程,会发现技术在当中起到了非常重要的驱动作用。从最初的印刷媒体、新媒体每一步都是技术在背后推动和助力。
媒体之所以这么热衷于新技术,一方面是因为我们本来就是环境的检测者,同时我们也都非常希望新技术和应用能够帮助我们吸引人群,但是在2013年当我们说大数据时代已经来临的时候,我们看到媒体有很多和数据相关的应用和发展。而对于媒体里说数据是一个老东西,在这一波的数据浪潮当中,最早被大家关注的事件之一在2012年的时候因为纽约时报有一个专栏他们做了一个用数据新闻去预测美国总统大选,当时是奥巴马大选,发现新闻还可以预测未来,这是媒体人做的一件新鲜事吗?早在1952年的时候,CBS已经用大数据报道,来报道美国总统的大选。如何把数据这两个字关联在一起,而是把这一种报告方式叫做计算机报道,因为人被机器的计算能力折服了,而当时的计算机非常少见。
2016年的时候我们用数据新闻,这回报告希拉里的预测,但是错误了;发现确实有一些错误。当然媒体要吸引眼球,更重要的是需要严谨,不然会丧失自己的公信力。到底算法的局限性在哪里?我们看两个案例。
第一、这是USA美国种族多样性,大多数新闻其实用不到算法,这个用到了,他们基于大量的人工普查的数据做了一个未来美国种族多样性;但发布这个作品的时候,同时非常严谨的说这是基于当前的社会文化和人口情况做的一个预测,未来会发展变化。因为天灾人祸都有可能发生,这个时候我们发现媒体已经更加严谨了。
这个是BBC曾经做过的也是一个代表算法的数据新闻,基于大量的社会调研对整个社会圈层进行了界定,比如你家有几个孩子、月收入多少、平时喜欢什么运动、朋友圈有什么人,最后告诉你你在英国的社会到底处在什么位置,我当时在美国做的一个情况。那个时候薪水不是很高,朋友也不是很多,虽然自己觉得是一个文化人,但是通过这个预测模型最终我发现我属于劳动阶层,所有的算法和数据的运用都是有一个场景和局限。不过对于局限性不是面临的最大挑战。
S更大的挑战在是我们现在看到的这四个方面:1、算法做内容成本很高,更多的时候还面临人才匮乏的局限性,所以我们不得不向研究机构、科技公司寻求支持,在这个过程当中涉及到一个权利的问题,不是普通的权利,而是信息和算法掌控的权利。当我们拥有算法和数据能力和我们不拥有这些能力的时候,我们心态会有变化,我们会因此感到自卑,我们面对很多问题的时候会做出不够理性的选择。虽然现在到了数据时代,大数据也常常被人们提起,可是对于媒体做内容的时候,我们需要有一个平常心,即使知道数据新闻的核心并不在于说是不是一定要有大数据和复杂的算法,而在于用科学的方法问合理的问题,当然数据和算法在媒体当中的运用不仅仅在于数据新闻的领域,这个部分再讲一个小故事,做了十多年数据新闻的一个名人,他说工作的核心是一样的。要变成可用的、有价值的信息产品。
数据除了在内容方面,还跟媒体有其他的关联,我们主要再提一提智能推荐、我想大家都非常熟悉了,因为我们知道今日头条,当然能够在信息大爆炸的时代更快的获取信息,提高效率,而且同时面临很多的挑战,我喜欢看什么新闻就可以看什么新闻,并且提供了在细微领域具体的信息和支持,因此我可以完全畅游其中,
这个会带来我们过多的沉迷于自己的世界的风险,最终会变得非常的作茧自缚。
第二、我们看到今日头条以数据和算法为驱动的一些信息的渠道和提供商的时候,对很多原创内容会带来冲击,因此对他们内容和团队都会有一些挤压。我们再来看是不是这个事情只能这样,实际上我们也在做一些反思。
我们做了一个Google的浏览器,比如你是一个自由党派的人士,我在浏览自由党派信息的时候会问你保守党派的印象。比如这个按理这一次在美国总统的选举当中,推荐阅读中的算法有偏差。如果刚才只是一个简单的信息不会造成很大的威胁,更大的威胁是和人权密切相关的,比如说美国在很多州会用一个系统来评估那些罪犯在未来犯罪的风险,美国有一个独立的新闻网站非常好,只讲故事给那些愿意听的人听,他们用其中一个具体的数据检验,发现算法的准确率只有20%左右,会带来的后果很可怕。当我们提高这个案例的时候,是只算法的偏差,这个数据时代媒体非常重要的职责,就好像检验事实的真实性一样,我们需要检验和公众相关的算法他们的可靠性有多少,当然本身对于媒体自身的技术能力、储备、评估有更高的挑战。
最后我们说一下自动化的新闻写作,主要是为了提高效率。不光会写文章,还要写评论,可以自动的编辑视频新闻的写作。他们就是可以运用传感器的数据来进行一些自动化的写作,未来写作趋势普遍的观点也是认为会被运用到更多的领域、会有更加深刻的报道、快速的报道、更高、更快、更好这三点之外,还有人反思是不是能够更准确,这个时候会有一个新闻真伪的检测性,并且越来越多的应用数据和技术。主要是两种方式。
1、REUTERS追踪数据源的可靠性;2、facebook,整合一些更高的信息源做一个评判和反馈。
这个领域这么宽广,每一个人、每一个研究团队、每一个实践者以他们的聪明才智做事情。我们实验室解决的是数据传播的问题,在数据的来源方面数据比较难获取,并且得到数据之后还需要花大量的时间做很多真伪的工作。数据的表达,要么就是高度定制化,另外要有很高的成本,我们就做了这些一个镝次元数据,通过提高高质量的聚合数据,这是平台基本的页面,包括零代码的数据模板,工程师很了不起,但是对媒体来说耗不起,而且数据对模板的智能匹配,还有多模式写作。
再回到今天的问题数据算法与媒体创新,我们对这个领域感兴趣的可能是一个思考者,在这个行业当中是一个实践者,但是我想说的最后一句话在这样一个蓬勃、新生的年代,我到底想要做的事情是什么,我到底做的事情会怎么样影响别人。
主持人:刚才王老师主要是采用了美国的案例来说明媒体与数据之间的关系,为我们呈现了媒体数据和新闻写作中的数据和算法。接下来让我们用热烈的掌声用IBM李英伟。
李英伟:大家下午好!下午讲压力很大,本来大家吃饱了会比较犯困。人工智能这一块现在非常热,把它压缩在短短三十分钟之内压力更高,我可能经常在跟大家沟通的时候有时候容易拖,今天争取会像王老师一样30分钟完成我的任务。
其实我上次在跟我的客户谈的时候,我们的一个国务院规划还没有出来,马上现在已经出来了。其中有一句话很好:“人工智能会成为我们新一轮的核心驱动力”,可能前两年还在谈人机大战的问题,但是现在其实我们看各行各业,在我们媒体业的算法,当然跟我个人来讲算法和现实之间的模型匹配时时刻刻都要关注,只要做一定会想办法做好匹配。AI我们不知道多少亿的产值会在哪里产生,包括月初无人机就上来了,马云虽然也在做人工智能,但是做事很强,无人超市已经开业了。IBM在医疗方面、在全球也做了很多。在国内我们也在常识我们在帮助整个类似胃镜,在整个过程中多少前针找出异常和病症都是无限的。当然在国内针对金融方面
已经面临了,我们业界已经在做一些相同的尝试。
IBM在人工智能方面,我们有一直以来的努力。很早之前提出了很多分析的方法和框架,在前些年在人机大战利用自然语言的处理,我们赢得了大奖。包括形成了一些论文,都是在这个方面做的一些事态,我们可能比较早的提出了认知计算,针对人工智能我们认为在三个方面比较重要;第一、我们需要机器要跟周边的世界进行交互,交互的第一步要懂得周边世界在做什么,不仅仅是传统的机器语言,还要懂得人类的自然语言,能够听懂声音。第二、除了这些我们需要了解更多的比如说一些我看最近好像也是IBM在做,通过人工智能的方式,来帮助整个农业方面去利用合理的水资源,而不是过量的饮水,能够农业最好的发展,减少废水的利用。其中一点就是说会读取大量的传感器的数据和信息,会连接起来,在读取数据的时候意图是什么,当这些LT的数据传上来的时候意味着什么,然后回归的时候要对方能够听得懂的语言在跟世界进行交互;拿到数据之后我还要在这些海量数据终不断能够学习,我们当前的数据基本上是反应了我们人类和自然的活动特征,这些特征并不是为我们人类全部理解,有一些东西大概知道,但是真正的背后模型是什么,有的可能本身就没有意识到。有一些专门的人通过一些归纳的方法可能会得到一些,但忽视这个方面的时候就没有拿到相应的信息。机器可以通过大量的数据中会捕获这些模式,不断的去探索整个世界的过程。最重要的是你有了这些以后还需要进一步的行动,我们要把这些数据进行提炼,变成真正对人类有意义的行为,这些行为需要有最佳的决策,如何优化决策,这就是我们所谓的决策能能力。基于这几个方面,IBM已经做了大量的工作。当然在国外也有很多实际技术方面的落地行动,包括语音的处理、自然语言的处理、对话的处理,这些都是已经以API的方式提供。
那我们再看我们当前的各行各业,通过熟悉的金融行业开始,我们现在在做的很多事情,这么多年来我们在具体的一些工作方面做了很多电子化的成果。我们为金融提供了很多跟客户之间互动的渠道,我们做了很多数据的处理和计算方法,我们会去做一些相应的帐务电销化,仔细分析,我们发现真正在其中做的时候,还有很大的部分是根据我们的人脑,当然人脑并不意味着一个人,集合了一个企业所有员工的智慧。整个企业对外部的请求和交互、理解,它的回应,拿进来之后怎么做数据的一些处理、怎么样根据外部的意图进行一些查找和日常运作中的一些方式,最后怎么样做一些最终的优化。对应到AI这个角度,就可以进行。
针对这个我们可能需要一些增强,我们可以根据我们当前的认知的基础,跟我们在交互过程中不仅仅是按照格式化提供一些数据,可以拿手机跟我们机器进行自然语音的对话,可以在网上随意的敲一些键盘。背后就会有相应的进行处理,我们会捕捉他的意图、他的需求是什么,我们帮助他找到最合适的解决他问题的方案,最后得到一个双赢。这个双赢可能更多要完成对企业的利益最大化、对客户效益最大化;这是AI思考问题的新的方式,从这个思考我们发现有很多的工作可做,当然这个我不相信讲了,有的时候做技术需要画一些东西。
总体来讲,我们在这个案例中我们可以看到我们可以去考虑和帮助客户能做的事情:1、我有一个认知的渠道,我可以优化我现在所有的渠道;2、我可以可好的认知和理解我的客户;其实我们现在很多地方这一块已经做的比较多了,甚至他给你自己更知道你自己的需求;3、当你有需求的时候,我们在合适的时间、地点推荐你合适的方法,达到双方的优化。
具体的事例比如说我们会通过认知技术根据客户的一些自然语言,可以让客户不至于说非要理解我们具体的业务语言,具体的技术语言,从而达到让客户的体验更好;通过自然语言处理,我们可以理解客户,他提到一个问题或者说是什么含义,当然这些含义背后必然我们会用到一些算法和技术会进行整个的训练,从而真正能够理解当客户在说他的话语的时候,我们知道他背后含义是说希望要求没有合适的产品,找不到合适的产品,也许会意味着说会需要一个更高收益的产品,对投资方面来说。放到语言方面,我们对客户本身的认知和理解的加深有很多方面,我们对客户过程、行为数据的搜集,跟兴趣的搜集来完成对未来行为的预测,我们更好的能够认知客户、更好的了解他的过程中,从而对未来有一个更加准确的预测。当然其中的技术会非常多,包括推荐、包括深度的分析,几个方面,简单来讲,我们过去的数据其实是一个很大的金矿。如何挖出来是很重要的一点。无非是说我们在要做到的目标,应该是说我们能够在合适的条件下,我们能够认识到如果我们很好的预测客户什么时间有什么样的预测,他的偏好是什么,我们就能够把广告变成感兴趣的内容,把推销变成一种服务。这个是我们所希望走的方式,当然通过我们传统的一些标签化的方式,能够对客户有更深的理解,同时对过去的数据处理在行为、感情方面进行分析,得到一些比现在更多的分类以及一些标签和一些处理。我们对客户理解以后,我们有一定的预测以后,我们还需要对我们业务本身有一个更好的优化和过程。比如我们针对客户的预测,我们让他什么时间针对一个过程,其实是我前一段做出来一部分的一个东西,我们在这个过程中可以发现整个客户在某些方面是符合现实的,算法和现实世界的匹配,能够在一定的时期之内可能会跟我们下一次交互也许能帮助我们了解在什么时间做什么事情。
另外,更近一步,所有的事情其实对客户的认知很多年前我们已经在做了,随着技术的进步越来越精细化。现在非结构化数据越来越多,我们可以在一些非结构化数据中提取一些不容易发现的问题,从而更好的对客户进行分类,以及对客户有一些相应的更深入的认知。当然这是一个例子,也是在美国大选期间通过视频的分析来完成的。我之前的一个工作,比如说我们针对投资的一些处理的时候,其实很久之前,我们在投资上有一定的模型和算法,而也起一定的作用。随着技术的发展我们也需要不断的创新,比如说风险和收益在投资里面是最核心的内容,也是最容易被膨胀的内容。以前很多是假设在某一段时间之内、某一个时期之内,我们的收益和风险基本不变,基于这个数据的时候,我们在推算给客户什么样的产品、我们在计算客户什么样的配额是我们做的一些基础。但是现实中,风险和收益是不断的发生变化的,虽然在这方面的论文比较少,但是目前随着技术的拓展、随着计算能力的提高,我们可以在上面做一些常识,到底我的收益基于一个什么样的变化、模型是什么、风险和变化方式是什么,依赖的数据是什么,我们用什么方式进行初步的处理,跟我们的传统方式对比看哪个更好,这可能都是我们需要做的时候创新的点。当然,我们还拿投资为举例,我们为客户投资组合的时候,我们都希望针对一些不同风险、针对各自的偏好、在不同风险、不同收益几个产品进行组合,什么在是最优,就需要用到一些运筹学等规划的问题。这就是我们要在做决策的时候要取最佳的效果。在这个情况之下,我们怎么样运算我们目标是什么?约束的条件是什么?比如这个人我们通过对他的认知,知道他不喜欢或者喜欢高科技,我们在高科技这一块有一个约束总比例不高于多少或者不低于多少,类似于这方面的约束条件,最后可以得出一些方式。当然,这些可能在进一步来讲,我们现在在深度学习方面有很多进展,我们如何应用深度学习的工作进一步拓展我们的准确率,当我们有一定的数据在进行处理的过程中,能不能从原来得不到的一些信息,比如情趣对市场的关联。比如我们可以随时从一些财经媒体说拿到相应的评判,比如说我们可以去得到不断的去分析法规政策等这些内容,我们通过大量的数据、文本信息里面去拿到对整个相应的股票影响的方式以及程度,加入了我们整个算法过程当中从而修整我们对未来的预测,这其实已经看到了有论文出现,在这儿其实已经有一些相应的尝试。当然,我们做的就是不断总结之前,前面的一些经验其实机器学习和人工智能第一先是学习,机器要学习人类的能力,比如投资学中很重要的一个特点当处于股市熊市、牛市的转化和处理,如何把握到观点,我们可以利用到一些算法来去找一些模式的匹配,什么算是熊市、什么算是牛市,而且通过机器快牛、慢牛、平稳等等这些东西,最后我们如果能够找到转化点,也许就能够在我们的业绩上得到更好的提升。
做这些事情我们之前更多讲的技术的促进,但是仅仅技术是不够的,或者平台也是不够的,整个的人工智能是需要与世界进行对话,和整个生态环境是离不开的,其实这些本质还是来源于人,我们需要有大量的数据专家、业务专家、计算机科学家、算法专家共同去提升整个的工作;所以我们考虑整个的发展,我们需要考虑三个支柱方面共同的努力。放到人身上来讲,这个图现在已经有一些第二版、第三版了,针对数据科学的部分,我们需要很多跨行业、跨领域的知识,确实专门一个人具备方方面面的能力很难,但是我们可以也一个团队组合我们相应的能力,完成不同的工作,也是在这个方面一种模式。另外,AI很重要的一点包括机器学习不仅仅是学习,最重要的我们让他变成学习的机器,整个我们工作、我们的创新、我们的一些业务的运作应该得到不断的提升,我们数据在不断的获取当中,不断的数据的增量进一步推进我们学习机器的能力、机器学到更深的知识之后再运用到人当中,完成闭环,我们支持闭环的持续学习。我们可能也是在这方面需要一些努力。
最后,现在已经具备了我们的数据,我们有我们的业务专家最懂自己的业务就是自己,我们有一定的相应的一些IT的一些同事已经在做系统,我们再能够把人工智能的人员、技术、咨询的一些能力、方法结合起来,从而能够让我们得到一个更好的结果。
本来后面还有扫码,现在没有了,我到这里了。
主持人:非常感谢李英伟先生的分享。如果说大家有什么问题少稍候想跟我们分享嘉宾交流的话,下一个演讲嘉宾演讲完之后就可以进行提问。接下来让我们用热烈的掌声有请下一个分享嘉宾猎聘网的单艺给大家带来的人工智能与人的职业发展。
单艺:首先感谢CDA给我们这么一个机会讨论一下人工智能和人的职业发展的主题。今天从我实际的工作和经验做了一些思考。这是我的简单的个人介绍,我现在是猎聘网的首席数据官,主要负责大数据、机器学习和人工智能技术的应用和开发,我之前做过搜索、广告这些方面的数据分析,但是加入猎聘网之后做了一个兼职的工作就是职业顾问,我是在做招聘的,我要知道各行各业的发展,的确我可以帮到大家,我们可以看到很多数据和各行各业人才的发展,我们可以给一些朋友做职业的咨询。今天主要讲四方面。
第一、AI助力职业发展;
我自己的实体工作还要发展来看,高质量的人才特别重要;最近从去年之后,开始有一些新的论调出来,人会随着人工智能的发展会突然失去工种,人才就不会那么贵了,这是一个问题;现在经常会看到人讨论人工智能会不会消灭人的工作,会干掉人的工作,这个是非常射门的一个话题。接下来我会举例说明。
什么是人工智能?有一个很简洁的定义,人工智能就是一种Agent,能够感受到环境采取行动,目的是说让设定的目标能够利益最大化,是能够适应环境,根据环境去做一些行动,能够不断的提升目标。不如说无人驾驶会带到某个地方去,会给你推荐一些个性化的物品能够得到更好的用户体验,这都是AI的具体应用,而且还分为强AI、弱AI。所谓强AI就是像人一样,有广泛的、自主的、学习的能力;另外一个就是只能做一件事情,是为了这件事情而设计的,现在来讲强AI还没有出现。
具体在研究领域,像技术的推理、知识的存储、获取等等,具体看人工智能是如何助力职业发展的?
首先猎聘网不同的人有不同的求职需求,像这两张图,左边是给非常资深的工程师或者工程师的领导者的一些职位;右边是比较初级的产品经理的职位,不同的人在我们的网站上想找的工作是不一样的,所以我们应该给他们提供个性化的、非常贴合他们职位的选择;传统讲,一个人可以去搜索、浏览,但是浏览纯看一小部分,搜索是非常比较复杂的,不像我在普通的界面上敲一个关键词就可以找到。我们找的是工作机会,考虑我的行业、职能、技能、地点、薪资都要考虑,每个人做好搜索是有一定的难度,从他使用角度讲、从他对行业的角度理解都需要理解,用户需要智能的职位系统,职位招聘业务里面其实跟传统的电商、电影、娱乐的推荐其实不太一样,这个需求虽然这个产品也叫“推荐”,但是用户找工作的时候,有相当的要求在这里面,所以要求比较高的相关性,要求基本达到了像搜索引擎,我希望推荐给我的职位跟我自己搜的效果是接近的。
企业这边要求更准:第一、企业是非常保守的,我们个人还允许看到一些不太合适的不投递,但是企业HR工作很繁忙,要明确职位的要求,也不希望陌生的跟这个行业、跟这个工作没有什么经验的人来消耗他的工作时间。所以是非常保守,对简历要求非常高的。和点上是不一样的,求职招聘里面要求是非常准的。第二、B和C的需求差异巨大。
在看到我们猎聘网统计了一下,根据国民经济的划分标准我们有1200个细分行业,我这边有厚厚的一本书,就是《职业分类大典》是国家出的,现在已经到了后工业时代了,人的职业分工是非常细的。所以这个也是很大的挑战,隔行如隔山,每个行业有自己独特的技能要求、背景要求、专业要求,所以如何理解这些事情,理解每个人的背景、每个职位的背景、每个公司的背景,这都是特别大的挑战。而且数据的质量,虽然猎聘网有超过3600万的注册用户,每天在线的职位有七、八十万,但是这个跟我以前做的搜索和广告小了很多,所以数据的规模和质量都是会出错的,比如一个职位HR一疏忽,发一个职位其实是两个职位,这个事情也不容易。我们在给人推职位的时候,我们用了一个比较经典的架构,我们先会用文本挖掘机器学习的方法构建我们三个画像(人才画像、职位画像、公司画像),通过好几轮的筛选,最后通过很大的机器学习的模型做排序,形成了最后的结果,给人推职位。这个理解成为通过一些简单的算法先初筛,接下来精选,形成三个臭皮匠顶一个诸葛亮,这样可以推荐出一些符合求职者需求的结果。另一面,我们用前面的系统给HR推,那我们就会再改一套系统,也是类似的框架,多策略融合机器过滤的方法,HR推荐人才,这方面系统现在上线了,经过几个迭代以后取得了令人满意的效果,我们在内部的测试中,发现机器推荐的相关度已经可以和和推荐的相媲美。
另外,从用户产品使用的需求理解来说,发现他在职场的发展也离不开人脉,找同事、找校友,尤其在亚洲和中国是很重要的资源,如何帮助他发现更多、更好的关系,能够跟他的职业发展有帮助变成很有意义的事情。我们专门做了一个人脉推荐的系统,通过一些基础的算法,再通过融合的技术形成一个职场朋友的矩形。这个是在15年初上线的系统,已经能够比早期的时候要求量是四、五倍,转化率高了50%。做了这些事情之后,背后关键的技术是有健壮的机器学习的系统,而且跟普通的机器学习系统有很大的不同,线上的系统更重要的考虑在实际运营当中能不能及时反映模式的变化,因为在实际当中,这种数据往往会出现各种各样的噪音,我们在这个系统中来讲,数据先通过一个实验管理和预处理形成特征,而且及时落地,避免了所谓的滞后或者数据不一致的问题,然后在生产模型,同时在整个模型当中做了很多的检测,因为一个错误的数据会带来错误的结果,背后输出以后形成的结果在实际当中效果怎么样,我们有及时的检测,出了问题我们可以及时发现,做人工干预或者保证整个系统的稳定。这是生产环境当中的系统和实验室系统很大的差别。
再往具体的技术细节,我们在做这些模型的时候,但凡做过机器学习的人都知道算法有模型参考数的,比如层数、每层神经元数,还有提升次数、树的最大深度、学习率、样本采样率、特征采样率等等。
我先讲一下这个事情为什么重要?可以用一个简单的神经网络完成,而且有一个重要的参数学习率,从这个图里面可以看到如果把学习率设的比较少,就是0.025,纵轴就是比较稳定和平滑下行的过程,如果可以加快学习率,当我调整到0.25的时候,学的快了但是模型不太稳定,如果再调整到2.5的时候就没法收敛了,所以小小的这些参数,其实对于最后结果的影响很大,所以我们必须要有很好的手段处理。所以我们会出现超参数优化的问题。
目标就是偶然要找到一个在验证数据集上效果最好的超参数,而且数据性质是比较良好的,我们要挑战的是参数空间巨大、效果函数是一个黑盒子、训练和评估效果高,现在的模型也越来越复杂和大,我们跑一个实验室就得一个小时,所以要把参数调一次,单次时间就很长,所以实验的成本会比较高,所以我们做实验也不是可以无限制做下去的。所以问题来了,我们如何聪明的搜索到最佳的参数,第一就是手工调参,比如老中医就是不科学,把脉上火了吃什么也不一定管用,我们做科学的觉得中医的方法不是一个可靠的东西,但是没有好的方法之前全靠手工调参,如果团队没有有经验的专家在里面,调的半天也调不出好的结果出来。那有什么好的科学的方法寻找最佳超参数?我们可以一些点出来,一个一个搜索在简单问题上是可以用的,但是有一个问题,如果你分的比较粗、运气不太好不一定找到最佳的点;还有一种随机搜索做实验,只要花费在40%的实验就可以逼近最佳的点,这是一个行之有效又简单的方法,但是有缺点就是只能看运气,不一定能碰到最好的点;接下来我们可以考虑用统计学里面的一个方法均匀分布的抽样来做选取实验的点,看起来像是随机的,就可以在理论上随即搜索更有效率、更有把握的找到最佳的点,这些都是经典的超参数的方法。这些都还不是最好的。我们现在用的方法是贝叶斯优化的方法,我们会假设优化的目标函数符合某个先验分布;然后初始随机实验,根据观测结果得到后验分布。里面用到的模型就是高斯过程回归,具体数学的细节不讲了,这个模型非常优雅,把多元高斯联合分布,拓展到一个函数上面去,如果我们知道一些数据的点,给一个新的数据点过来,可以预测我在这个点附近效应函数的均值和分布,我们就可以知道在哪些点、哪些区域附近有比较好的结果,而不是随机选,这是给我们带来的巨大的飞跃。
方法还是先是做一些随机的实验,虚线是真实的,在早期的时候只有几个点,所以蓝色的区域表示两倍方差的区域很大,或者有提升概率最大的点,或者说提升期望最高的点,我在这上面期望是最多的,还有一种方法找到我们在最乐观的一种东西在这个点上面,可以选任何一种就可以找到下一个实验点的比较好的选择。通过这种方法就可以避免盲目的做实验,不断的去学习、不断的更新这个参数空间的结果理解,比传统的要花大概少40%的实验时间找到最优的结果,而且这个结果的确整个来讲效果是比较好的,这是用高斯过程回归来优化超参数,而且也可以拓展到整个建模的过程,我们自己招人也难,有的活干不过来,像我们一个项目里面将会有上千个点,我们其实可以用自动,把这个方法拓展,自动化建模丢个数据给他,这个系统就可以把背后的效果很好的模型做出来,尽量少人工的干预,回头讲,对于做分析师、对于做机器学习的职业发展,我觉得也是非常有意思的事情,这种东西会越来越多,我们自己在内部做了一个小系统做这个事情。
另外,我们的实验平台是基于强化学习做的试验平台,会根据试验的结果会进行流量的分类,在试验当中比人手来分更有效果。我们用的方法是Thomas Sampling,找效果最好的策略然后给最大的概率做实验,不断的学习,不断的适用于环境的变化,这是是挺传统的方案。
第二、大数据的分析是可以帮助大家(政府、行业、企业、个人)做好行业发展。
我们的方法并不是以线下调研为主,我们是以线上的平台大数据分析为主的方法。我们做的方法还是从原始的数据,比如说职位、简历、公司信息里面提取出职位画像、人才画像和公司的画像,这些是相对比较静态的,然后再把每天的用户行为整合进去形成最后的实时的人才画像的人才圈,通过统计的方法,分类、聚类最后形成分析报告。举例说明:跨行业人才流动的情况,我们做的主要行业分析都在上面,可以看到在2016年的时候,红线是每个行业流出最多的,大量超红的都出现在互联网,横轴是流出的行业,一行一行流出的情况,可以看到从这个行业流到哪个行业去,基本上都是在互联网行业流动,说明互联网行业有工作机会和很好的待遇去吸引人,很多的都出现在互联网行业。这是一个宏观上很好的数据统计,也是一个直观的统计。
因为可以对每个人的技能做引流,比如有多少个月的经验,我们看不同行业他的人才技能积累的情况,前面讲互联网行业很吸引人才,但是互联网在这张图上横轴是掌握的熟练的程度、纵轴是讲掌握了多少技能,所以互联网人掌握的技能不太多,因为互联网是比较年轻的,相反能源行业积累了很多人才,有很高的素质,互联网其实很火,但在积累方面还是薄弱的。还可以看到各个城市之间人才的质量,横轴和纵轴跟前面是一样的,可以看到深圳就比广州掌握的技能数就多了很多,熟练程度也跟广州逼近,深圳的发展的确比广州要好,另外,像上海、北京这是两个传统的超一线城市,所以这些事情其实是可以给我们人才的发展、包括政府、教育机构做规划的时候是很有用的数据,这个我们跟国家发改委有很长期的合作,不断的给他们提供数据,帮助他们做人才方面的规划。
第三、大数据和人工智能人才需求情况。
我们可以看到AI和大数据工程师的需求是处在快速上升渠道,虽然只有百分之一点几,这个占比和量还是挺大的。在15年的时候,那时候需求量就快速上升了,但是做算法并没有,一直到16年4月份一下子飞起来了,16年4月份发生了什么事情?一下子对关注的点直接拉起来了,老板觉得搞算法的也不太清楚他们可以干什么,也不清楚他们有多少意义,一看到说微信可以打败人类,不干的话导致竞争力的丧失,所以各家公司都在搞智能化的项目;然后薪资跟底下线是持平均水平的,大数据比AI工程师高出20%。数据分析师其实存在已久的职业,需求也在稳步的增长,尤其在14年之后明显高了很多,但是没有像算法工程师爆发一样,但是你可以蓝色的曲线是均值,这个需求量、占比也是很高的;分析师比较讲究经验,年轻的分析师的薪资和待遇不会特别高,行业平均水平差不多,但是你可以看到如果经验多了以后薪水跟整个行业差距越来越大,到了十年以后企业肯定会招资深的分析师。我们前面提到了研究很多人的技能,我们把简历里面、智能描述里面把核心的观点列出来了,算法工程师来讲就冒出来很多数据挖掘和算法;分析师要求更有意思了,这是一些高薪分析师岗位的要求,不仅要求数据分析,也有很多业务要求,对业务、对商业、运营、销售、市场营销都要懂,尤其你一定要懂业务,这个跟普通的技术岗位不一样。
第四、人工智能的展望。
我们看一下,人VS人工智能的差异,你会发现人工智能在一些领域、比如说在记忆、计算、预测方面都已经比人要强很多了,但是人还是在很多领域要远远强于现在人工智能的技术。尤其是在推理、规划、理解、语言、创造方面,所以人现在还是有很大的优势;的确AI可以替代不少的工作,尤其是体力的劳动、危险的工作,这个图是麦肯锡做的一个分析,从行业和技能角度去看哪些东西是可以被替代的,你可以看到在资源采掘、体力劳动数据处理、数据搜集、教育都有不少的东西是可以被机器替代的,所以的确媒体上讲的算法会替代一部分人的工作的确成为现实的;所以对于未来工作的影响:1、强AI能否实现仍然是一个未知数;因为从哲学上讲,人是通过不断的实践跟世界的交互、跟人的交互有行动能力,机器要形成这样的人力仍然还有很长的时间;2、自动化!自动化!自动化!但是自动化会越来越多,重复性的工作、危险的工作、整个过程比如说传统的销售管理可能靠的是经验和销售的领导感觉和经验去管理,但是在我们的实践当中看到我们的算法在预测销售、在发觉客户的可能性、转化的概率、客户的订单大小可以超过人,这个时候如果再靠传统的经验去管理这个会让团队、这个组织竞争能力降低,别的人会用算法去管理,将来很多过程性的管理、客户的管理、销售的管理都可以用算法去做,人只要监督这个算法不出问题就可以。3、所以对就业的影响,创造(AI工程师、知识工程师、机器人工程师)、替代(司机、农场工人、客服、销售、助理)、增强(智能助理、智能技术支持、人脑接口);4、对经济和社会保障的冲击;
未来是一个人机智能协作的时代,我们一定会跟某种机器一起工作;对于未来来讲,我们要做新时代的主人公,我们要学一点编程,懂数据,尽可能掌握一些机器学习、人工智能、更重要的是人的最重要的能力是协作和组织的能力、创作力,这一点我觉得中国的教育是比较欠缺的,我们对下一代要重点培养,这是很长时间要达到的。我的演讲就到这里,谢谢大家!如果有兴趣的可以加我的微信来一起讨论人工智能和人的职业发展。
主持人:非常感谢单艺先生带来的分享。人才大数据更新案例和AI的职业未来详细阐述了人工智能与人的职业发展的问题,再次感谢!刚才跟各位已经说过了,稍候我们有一个有奖问答的环节,我们可以踊跃举手提出,我们可以有在场的嘉宾来回答。
梁书远:拥有数据和知识之后,可以挖掘很多有趣的东西;最重要的一点是数据的来源要全面,包括数据的质量尽可能良好一点,我想问我们所搜集的这些数据大约是怎么样的渠道?包括现在比较热门的话题叫“数据共享”,各位嘉宾觉得共享数据如何发展?或者发展到一个什么样的程度?
主持人:一个是数据搜集的渠道有哪些?在未来数据发展的共享发展趋势是什么?我们请一下现场的嘉宾可以解答一下。
罗先生:我来解答一下:
第一、数据获取的渠道一个是可以通过爬虫的方式,现在网上的很多数据其实非常多,比如旅游相关的数据,可以爬携程的、去哪儿的等等,形成了一个综合各家数据很强的一个数据库了。比如说定理位置的数据可以爬百度和Google的,这种用爬虫去爬的数据量可以爬到很大;
第二、数据共享方面,有一些数据是比较零散的,其实最好的数据共享就是我们用一些格式,现在有一个开源的公开的OPEN开机,共享一些行业的数据,各家往里面共享就是结构化的数据可以拿过来用,而不用去爬,而且应该建立一些纬度,就是数据和数据之间的关系。
主持人:谢谢罗先生,那我们其他的几位嘉宾还有没有分享的,对这个问题解答一下。
王昊:1)数据获取的方式爬虫是最便宜的手段,大家不要以为爬虫是偷,爬的过程就是让机器模拟人很快速,当然这个爬也是需要技能,一样也需要学习这些技能。还有很多其他的方式;2)还有买;就需要付费获取;3)再有一个就是交换,假设我有一个数据、你有一个数据,我们可以交换。4)政府未来开放共享数据越来越多,实际上还是有很多,只不过大家很少看哪些很low的政府网站,在美国这个趋势还是有的,政府开放一些数据还共同对数据做一些获取。5)机器学习和人工智能会生产出来很多数据,这种数据很可能价值更高,所以我建议朋友可以想一想这方面。
主持人:谢谢王老师,我们这位姓梁的先生恭喜你获得了我们主办方为你提供的换书券,我们今天再给一个机会,哪个朋友提问,麻烦我们工作人员。
藤先生:今天有这么多的嘉宾包括行业内的大牛到场,觉得有提问的机会很荣幸。我问一个形而上的问题,有一种说法所有的人工智能都是伪智能,跟人的智能在原理上不是特别一样,可能说以这个方向发展得不到向人类高级的智能结果的,现在这些人工智能模型只不过是一个传统统计学的延伸,还是在统计学这个学科做的都是这个范围内的东西;但是我觉得智能并不是这么简单的东西,我不知道各位老师、各位嘉宾对这个问题有什么看法?就是说我们走智能的东西是一个能够达到这种高度吗?我想问一下。
主持人:人工智能是不是伪智能的问题上受到大家的关注,对于人工智能各位有什么想说的?到底能不能达到人类的脑部思想、脑部智慧的工作?从我们新文学的角度为我们分享一下。
王老师:今天我们看到很多新的东西,其实早就有玄机和埋伏;对于数据应用会有很多的反思和批判,同时我真的就是一个相对技术的悲观主义者,我觉得人工智能的发展一定是有一个阶段的;未来,今天人的想象力会非常的局限,不知道会发展成什么样的,在我的想象当中他可以超越人、替代人、毁灭人,但这就是我内心的想法。我觉得他今天的发展来自于人欲望的驱动,这个“欲望”是一个中间词,而未来对于人类的毁灭来自于人类的恐惧,当你发现不太可控的时候会做一些伤害它的事情,但是它也会有自我保护的欲望,这只是我的一个想法。
主持人:非常有自己的见解,那我们听不听罗老师对于人工智能的趋势,能不能达到人类智慧的高度?或者超越或者无法启迪?
罗老师:技术的发展可能会不断的进步和迭代这是肯定的;但是我认为它所谓会毁灭人类不取决于技术的本身,而是取决于人和技术的关系。比如:战斗时期死的最多的人的战争是昌平之战,不会想到上个世纪40年代的时候,当原子弹核武器造出来的时候其实技术能力是可以毁掉整个地球和人类的,但是目前没有干掉地球,是因为人和技术之间存在关联,因为能力和智慧是两个概念,人是经过了几亿年的进化,机器的进化和人的进化是不一样的,我觉得核心还是人对技术的把控。
主持人:非常感谢罗老师,我们经常说钱是万恶之源,其实钱就是一个物质,不恰当的用钱才成为一个万恶之源。我们刚才说的是发散性的思想。任何一个新事物的产生最开始的阶段都是不完善的,有可能是双刃剑,但是目前大家坐在这里共同讨论的主旨就是人工智能更好的为我们的人类服务。送给我们的藤先生一张换书券,在我们这个环节当中告一段落了,不过还没有来得及提出问题的朋友不要着急,我们整个嘉宾分享完之后,还会给大家带来新一轮的嘉宾。下面我们有请北京极海纵横信息技术有限公司的CEO王昊先生,主题是极海带您探秘地理数据的机器智能之旅。
王昊:我今天给大家讲一讲有意思的事情,不知道提起地理大家在座的各位分析师朋友还可以知道哪些地理的话题,美国人口多、还是日本人口多等等,黑海是海吗?银海是海吗?后海是不是海这些都是原来想过的地理问题。但是现在对地理的理解又更深更丰富。我今天上午参加了众创空间的活动在举办我们自己的读书会,最后众创空间的创始人给我们介绍了他们的商业模式,最后大家有一些交流,就问说现在众创空间这么多,你们的核心竞争力是什么?创始人沉思了一会儿就说我们核心竞争力就是位置,地铁的位置。有一本书叫做《卧底经济学》,最开场就是讲星巴克卖给大家的是好咖啡还是宣传的第三个空间?实际上也是好位置,当然我们怎么样想到什么是好位置?到底好位置意味着什么?现在我们机器学习可以帮助我们回答这些问题。
因为我是长期从事信息地理工作的,原来在工作的时候也有过一些和国家政府打交道的基本,08年有一天我参加国家的一个会,在讨论我们对地图和地理数据开放不开放、以及用什么样的标准上网开的会,大家用的百度地图、高德地图很长一段时间,地图数据还是一个很珍贵的情报,不是那么容易分享的。然后就觉得这些官员加上我们这些从事者说现在没有那么紧张了,有那么一个软件都用成这样了,对国家地理上有什么东西、没有什么东西特别清楚,这个软件就是Google Earth,我估计在座的各位都知道这件事情归谁管。Google Earth看到卫星影像不重要,如果没有人标咱们就不怕上网,当时说没关系,美国人做这个东西对我们情报是一个巨大的获取。那么,走到今天,我不知道这个参数当他看到今天机器就能够帮助人解决这个事情,也许会挺难受的。Google Earth最早就是做情报出身的,后来变成大众版。咱们国家一直军队很想做一个咱们中国的Google Earth,还花一亿做一个验证,如果刚才嘉宾也说了,大家如果想在人工智能走的更远,好用的软件都可以学习学习。目的就是说地理、情报、机器学习一直都有很深的关系。大家只是知道这个原理,但是今天有新的技术可以帮助我们做更多的东西。
来源:CDA数据分析师峰会:大数据与人工智能—分会场


雷达卡



阅读权限+下载200次/日+产品折扣+免费数据库+免费广告+人才库+海量论坛币
阅读权限+下载40次/日+产品折扣+免费数据库+海量论坛币

京公网安备 11010802022788号







