楼主: 滨滨有利123
1274 1

[数据挖掘理论与案例] 高交会见闻(一)—AI科普篇 [推广有奖]

  • 0关注
  • 31粉丝

副教授

24%

还不是VIP/贵宾

-

威望
0
论坛币
198 个
通用积分
25.4545
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
9596 点
帖子
328
精华
0
在线时间
383 小时
注册时间
2015-4-26
最后登录
2024-7-21

楼主
滨滨有利123 发表于 2019-11-26 19:47:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

高交会是是一个开拓视野的好机会,本次高交会好不容易遇上资深的AI产品总监—来自一家国内做AI图像领域的独角兽某厂商,深入交流了一番。笔者对这番内容进行了梳理,才有了这篇文章



这家厂商,是国内做AI安防整体方案的独角兽的公司,关于他家的业务如下:

    1.jpg


业内人士,能否猜到是哪家公司?好不容易跟这家公司的产品总监张总深入交流一番。笔者对交流内容进行了梳理,才有了这篇文章。所以文章以交流的形式呈现,中间会穿插着介绍一些基础的AI的知识,介绍知识部分以黑色斜体字体呈现


因为考虑到关注咋们公众号的读者以风控板块偏多,读者的背景大都以风控策略、模型、政策偏多些, 也有个别偏开发类的。虽然风控模型类的某些算法能称得机器学习算法,但是跟目前真正所提的AI相比,还是觉得相去甚远。


在整个风控模块中,模型是最能跟AI贴上关系的。在风控模型中,xgb算法算得上机器学习中,最能跟AI贴近的了。原自豪以为征服了的xgb就像征服了一座高山的你,等到真正接触到人工智能领域中强大的神经网络时,会发现真正广阔的世界还在后面的山头。


鉴于以上推论,对于AI类的内容相信大部分读者都为小白级别,所以本文仍以简单科普类为主。后续根据各位读者的反馈,如大家有兴趣,继续深入更新这一模块的内容。最后当然也欢迎AI大佬的围观后,给予拍砖指点。


另外在书写本文中,也查阅了一些资料跟内容,在AI方面实在不敢成为专家,写得不对的地方不吝赐教。关于此次这家AI公司整体建模的流程框架,相关的资料跟图片会有部分留在公众号,另一部分会独享到知识星球平台,欢迎各位交流切磋。


交流一:目前他们家的产品能够负载多少种算法?

张总表示:他们公司的芯片能同时处理五十种左右的算法,比如RNN和CNN等一类的算法。


交流二:目前公司的产品所用到的芯片是你们自己研发的吗?

张总表示:芯片是自己设计研发的,并且公司战略是将芯片免费提供给用户使用,他们是做智能云服务商的。目前芯片是采用业界领先的22nm工艺,工艺的性能、功耗、面积经过仿真、分析、比对,对比业界主流的28nm工艺,都具有一定优势,性能提升约10%,功耗降低约15%,面积减小15%-20%。


交流三:深度学习为什么能这么热火?

张总表示:深度学习,在七八十年代已经有了,现在的总体的技术跟那个时候其实没有很大的差别,不同的是因为数据丰富了,使得模型训练有了较好的载体。


交流四:目前的产品的计算能力如何,浮点的计算能介绍一下吗?

张总表示:视觉AI芯片具有2Tops/W的高能量效率。与Nvidia开源的nvDLA相比,相同运算力下,在很小的内存带宽下,算法模型效率可以提高18倍。与麒麟970相比,相同运算力下,比970的性能提高4.4倍。 2.jpg


这里之所以提到浮点计算,是因为浮点计算是AI的关键所在。首先有必要解释一下,什么是浮点计算。通俗来说,就是一种可以通用表示所有数字的科学计数法。它的表示形式为0.*****×10^***,其中小数点前面是定点小数,后面则是一个定点整数(10的N次方)。比如传统的1024整数,浮点数就表示成0.1024×10^4。不难发现,浮点数可以表示出任意一个整数和小数,并且比普通格式的计数方式数位更长,因此计算难度和精度也更高。而利用浮点数进行的运算就是浮点运算。浮点运算到底有多重要呢?这么说吧,目前所有的计算机处理器都采用的是浮点运算,所以AI芯片也是以浮点运算能力为基础展开的。


交流四:目前他们家的模型的数据样本来源?

张总表示:目前的数据都是自己内部的大量数据,都是采用人工标注的形式进行的。



这里提到的刚才说到了标注的问题,那现在标注是一项什么样的工作?需要什么技能?数据标注的问题。其实是一个很基础的问题,没有太大的难度。有些标注有工程师的,是需要使用某些软件,所以这部分岗位对应着title稍高些的数据标注工程师。

,                  


交流五: 目前,各种AI算法的内容,都会用用上CPU,GPU等内容,这些相关的内容,具体在什么场景下,用到什么X-PU,用什么芯片?

张总表示:目前随着AI概念火爆全球,做AI芯片的公司也层出不穷。为了让市场和观众能记住自家的产品,各家在芯片命名方面都下了点功夫,既要独特,又要和公司产品契合,还要朗朗上口,也要容易让人记住。比较有意思的是,很多家都采用了“xPU”的命名方式。目前在关于各种X-PU上,不同的场景用特定的芯片,这个也是必然的趋势。


AI芯片,百家争鸣,机遇伴随挑战,今天你争我夺,明天就可能并购。随着这些“xPU”的不断推陈出新,26个字母使用殆尽。据我知道现在就各种XPU的,基本在网络上基本从A-Z字母为开头的X-PU都已经被涵盖了:APU/BPU/CPU/DPU/EPU/FPU/GPU等处理器


交流六:目前在不同的场景下,用到什么样不同的算法?

张总表示:语言识别上,用的是基于时间序列的RNN的算法;而图像数据上,更多的是三维的数据,所以用CNN算法居多.


1.RNN

RNN是循环神经网络,因为很多相关的数据是基于时间的维度数据发生的推演,数据之间有特别重要的先后顺序,所以循环神经网络就是来解决这样的问题的:


    3.jpg

4.jpg


2.CNN

卷积神经网络,卷积神经网络是解决图像数据,长宽高等方面的数据而采取的算法,具体会将某个图像中的细分成非常多的图片块,然后再对每个块分成长宽高进行描述,其中高是代表着图表中颜色(RGB)。人们在发现CNN在卷积的时候,每一次都会丢失一部分信息,所以为了解决这个方法就引进来了pooling的方法。

    5.jpg


交流七:.问深度学习方面,目前制约深度学习的瓶颈的发展的是什么?

张总表示:目前很多公司的算法工程是是更多的怎么去调参,其实综观AI的发展史可知,

底部算法是才是制约AI发展的一个核心的关键。


另一个关键是目前深度学习,在商用落地方面还必须重要考虑的是功效的问题,只有功效的问题解决了,才能有更好的落地。


未来肯定是某个场景用特定的芯片,然后用级联的方式做集成。并且不同的级联方式,应用不同的模块。所以未来,在一个集成方面,还必须考虑一个集成如果解决芯片中,芯片的连接的问题。


最后是是关于AI,对正常的问题处理起来都没有大问题,现在的问题比较大的是对极端情况下,怎么做算法跟常用的应用。比如对于光线比较暗的地方,怎么去训练模型?在自己训练的模型中去拟合数据跑一个demo都是非常简单的,但是真正难的是,怎么将他商业化落地。


所以未来整个AI的发展也会是算法、功效交替迭代的过程。


最后给各位读者提供下开发模型的大概流程,关于此部分有些内容已经上传至知识星球,欢迎围观:



    6.jpg

7.jpg 8.jpg




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
滨滨有利123 发表于 2019-11-26 19:49:45
微信公众号&知识星球:番茄风控大数据
原文链接:https://mp.weixin.qq.com/s/wbMHPgP7CcRWk0OdXs8SNg

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-5 22:57