近年来,随着互联网技术的快速发展,“大数据”越发受到企业的重视。如传统制造业,通过推动大数据在研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,从而能够分析感知用户需求,以进一步提升产品附加价值,打造智能化管理系统;又比如证券行业,借助大数据的协助,其能够提前预知市场状况、接下来的走势等多个指标,这也是当下金融科技的一种表现形式。
事实上,不管是以上提到的大数据与制造业、金融业的结合形式,还是在其他产业的应用,从本质上讲都是一种广义的“用户画像”的刻画。
“用户画像”的构造一般分为三个步骤:数据采集、行为建模和画像构造。
数据采集的对象包括网络行为数据、个人内容偏好等多种数据。以往,企业等通过问卷调查、随机抽查来采集数据,之后由于互联网的普及,这一行为被搬到了线上,也就是所谓的“线上大数据”。而在眼下,随着移动互联网的快速发展和人工智能算法的精进,这一行为又再次出现了转移线下的趋势,也就是当下备受关注的“线下大数据”。
线下—线上—线下,变化如此波折,发生了什么?
这主要是因为一直以来,人们更多的行为数据是发生在线下的。根据国家公布的相关数据显示,目前线上消费行为在总体消费中所占的比例仍不足20%,而线下大数据每年平均能够占到88%左右的份额。
在线上行为以绝对劣势少于线下行为的前提下,线上大数据所构造的用户画像可能并没有那么的精准。这时,就必须要借助更加海量的线下大数据的支撑。
另外,在“用户画像”的构造上,100%永远是一个达不到的目标,因为用户的行为习惯等各项数据是时刻变化着的。比如用户最近需要购买的东西,这一数据是不断变化的,为了实现一个更为精准的推荐,算法也需要依据实际情况来不断地替换或者是补充新的标签,企业版“用户画像”的构造原理亦是如此。
NLPIR文本大数据搜索与挖掘平台是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,专门针对原始文本集进行处理和加工的软件,用户可以使用该软件对自己的数据进行处理。
NLPIR平台推广大量的数据帮助客户企业实现了大数据的可视化管理,再通过数据将用户标签化,由此构建最为精准的“用户画像”。