高交会是是一个开拓视野的好机会,本次高交会好不容易遇上资深的AI产品总监—来自一家国内做AI图像领域的独角兽某厂商,深入交流了一番。笔者对这番内容进行了梳理,才有了这篇文章
这家厂商,是国内做AI安防整体方案的独角兽的公司,关于他家的业务如下:
业内人士,能否猜到是哪家公司?好不容易跟这家公司的产品总监张总深入交流一番。笔者对交流内容进行了梳理,才有了这篇文章。所以文章以交流的形式呈现,中间会穿插着介绍一些基础的AI的知识,介绍知识部分以黑色斜体字体呈现。
因为考虑到关注咋们公众号的读者以风控板块偏多,读者的背景大都以风控策略、模型、政策偏多些, 也有个别偏开发类的。虽然风控模型类的某些算法能称得机器学习算法,但是跟目前真正所提的AI相比,还是觉得相去甚远。
在整个风控模块中,模型是最能跟AI贴上关系的。在风控模型中,xgb算法算得上机器学习中,最能跟AI贴近的了。原自豪以为征服了的xgb就像征服了一座高山的你,等到真正接触到人工智能领域中强大的神经网络时,会发现真正广阔的世界还在后面的山头。
鉴于以上推论,对于AI类的内容相信大部分读者都为小白级别,所以本文仍以简单科普类为主。后续根据各位读者的反馈,如大家有兴趣,继续深入更新这一模块的内容。最后当然也欢迎AI大佬的围观后,给予拍砖指点。
另外在书写本文中,也查阅了一些资料跟内容,在AI方面实在不敢成为专家,写得不对的地方不吝赐教。关于此次这家AI公司整体建模的流程框架,相关的资料跟图片会有部分留在公众号,另一部分会独享到知识星球平台,欢迎各位交流切磋。
交流一:目前他们家的产品能够负载多少种算法?
张总表示:他们公司的芯片能同时处理五十种左右的算法,比如RNN和CNN等一类的算法。
交流二:目前公司的产品所用到的芯片是你们自己研发的吗?
张总表示:芯片是自己设计研发的,并且公司战略是将芯片免费提供给用户使用,他们是做智能云服务商的。目前芯片是采用业界领先的22nm工艺,工艺的性能、功耗、面积经过仿真、分析、比对,对比业界主流的28nm工艺,都具有一定优势,性能提升约10%,功耗降低约15%,面积减小15%-20%。
交流三:深度学习为什么能这么热火?
张总表示:深度学习,在七八十年代已经有了,现在的总体的技术跟那个时候其实没有很大的差别,不同的是因为数据丰富了,使得模型训练有了较好的载体。
交流四:目前的产品的计算能力如何,浮点的计算能介绍一下吗?
张总表示:视觉AI芯片具有2Tops/W的高能量效率。与Nvidia开源的nvDLA相比,相同运算力下,在很小的内存带宽下,算法模型效率可以提高18倍。与麒麟970相比,相同运算力下,比970的性能提高4.4倍。
这里之所以提到浮点计算,是因为浮点计算是AI的关键所在。首先有必要解释一下,什么是浮点计算。通俗来说,就是一种可以通用表示所有数字的科学计数法。它的表示形式为0.*****×10^***,其中小数点前面是定点小数,后面则是一个定点整数(10的N次方)。比如传统的1024整数,浮点数就表示成0.1024×10^4。不难发现,浮点数可以表示出任意一个整数和小数,并且比普通格式的计数方式数位更长,因此计算难度和精度也更高。而利用浮点数进行的运算就是浮点运算。浮点运算到底有多重要呢?这么说吧,目前所有的计算机处理器都采用的是浮点运算,所以AI芯片也是以浮点运算能力为基础展开的。
交流四:目前他们家的模型的数据样本来源?
张总表示:目前的数据都是自己内部的大量数据,都是采用人工标注的形式进行的。
这里提到的刚才说到了标注的问题,那现在标注是一项什么样的工作?需要什么技能?数据标注的问题。其实是一个很基础的问题,没有太大的难度。有些标注有工程师的,是需要使用某些软件,所以这部分岗位对应着title稍高些的数据标注工程师。
,
交流五: 目前,各种AI算法的内容,都会用用上CPU,GPU等内容,这些相关的内容,具体在什么场景下,用到什么X-PU,用什么芯片?
张总表示:目前随着AI概念火爆全球,做AI芯片的公司也层出不穷。为了让市场和观众能记住自家的产品,各家在芯片命名方面都下了点功夫,既要独特,又要和公司产品契合,还要朗朗上口,也要容易让人记住。比较有意思的是,很多家都采用了“xPU”的命名方式。目前在关于各种X-PU上,不同的场景用特定的芯片,这个也是必然的趋势。
AI芯片,百家争鸣,机遇伴随挑战,今天你争我夺,明天就可能并购。随着这些“xPU”的不断推陈出新,26个字母使用殆尽。据我知道现在就各种XPU的,基本在网络上基本从A-Z字母为开头的X-PU都已经被涵盖了:APU/BPU/CPU/DPU/EPU/FPU/GPU等处理器
交流六:目前在不同的场景下,用到什么样不同的算法?
张总表示:语言识别上,用的是基于时间序列的RNN的算法;而图像数据上,更多的是三维的数据,所以用CNN算法居多.
1.RNN
RNN是循环神经网络,因为很多相关的数据是基于时间的维度数据发生的推演,数据之间有特别重要的先后顺序,所以循环神经网络就是来解决这样的问题的:
2.CNN
卷积神经网络,卷积神经网络是解决图像数据,长宽高等方面的数据而采取的算法,具体会将某个图像中的细分成非常多的图片块,然后再对每个块分成长宽高进行描述,其中高是代表着图表中颜色(RGB)。人们在发现CNN在卷积的时候,每一次都会丢失一部分信息,所以为了解决这个方法就引进来了pooling的方法。
交流七:.问深度学习方面,目前制约深度学习的瓶颈的发展的是什么?
张总表示:目前很多公司的算法工程是是更多的怎么去调参,其实综观AI的发展史可知,
底部算法是才是制约AI发展的一个核心的关键。
另一个关键是目前深度学习,在商用落地方面还必须重要考虑的是功效的问题,只有功效的问题解决了,才能有更好的落地。
未来肯定是某个场景用特定的芯片,然后用级联的方式做集成。并且不同的级联方式,应用不同的模块。所以未来,在一个集成方面,还必须考虑一个集成如果解决芯片中,芯片的连接的问题。
最后是是关于AI,对正常的问题处理起来都没有大问题,现在的问题比较大的是对极端情况下,怎么做算法跟常用的应用。比如对于光线比较暗的地方,怎么去训练模型?在自己训练的模型中去拟合数据跑一个demo都是非常简单的,但是真正难的是,怎么将他商业化落地。
所以未来整个AI的发展也会是算法、功效交替迭代的过程。
最后给各位读者提供下开发模型的大概流程,关于此部分有些内容已经上传至知识星球,欢迎围观:


雷达卡


京公网安备 11010802022788号







