大数据,不是为了数据而

2018-09-03 07:49 作者:产品案例 来源:ag88环亚娱乐

  大数据,不是为了数据而数据

  1844年,莫尔斯宣布人类历史上的榜首份电报:“天主发明了多么的奇观!”电报的发明,揭开了电信史上的榜首页。现现在,跟着信息技能的不断发展和AI数据剖析才能的飞速提高,大数据在往后能够发明出什么样的奇观呢?在2017中国大数据技能大会(BDTC2017)的媒体群访中,澳洲昆士兰大学教授周晓方、微软亚洲研讨院副院长首席研讨员刘铁岩、华东师范大学教授钱卫宁、滴滴出行高档副总裁章文嵩与咱们一起评论了大数据的未来使用问题。

  大数据,不是为了数据而数据

  现在企业施行的大数据体系,大多展现的是一个十分炫酷的面板和一些看上去很招引眼球的数据剖析,但数据的实践使用价值并没有什么切当的表现。就这个问题,四位专家别离表达了本身对现在大数据的观念:

  章文嵩总裁首要论述了自己的观念:“不是为了数据而数据,首要要了解需求用大数据处理的问题是什么?怎样来界说这些问题?假如把问题整理清楚然后依据这些问题,看看在数据上能不能做许多的启示,真正要处理问题动身而不是为了数据而数据。”

  随后周晓方教授对这个问题进行了深化剖析:榜首个方面是方才说的,咱们有一个问题,然后看需求什么样的数据,用这些数据怎样来处理咱们的问题。第二个方面,咱们现在有了数据今后,怎样样去解放思想,发明新的使用价值。企业界和科研界能够协作处理这个问题。大数据的话,前面方才大会的主席讲话也都说了,是咱们年代的特征。大数据现已是现实的存在,并且数据使用的技能在那里,各种使用场景现在也都落地了。因而,CRO们不能为了大数据而大数据,而是你究竟应该做什么作业,你有什么样的数据,需求什么数据,用这些数据怎样样把咱们已有的作业做的更好,用这些数据怎样样能够把咱们一些新的使用推进起来。

  刘铁岩院长:数据是咱们具有的一部分,咱们拿到数据是一个根底,咱们必定要从进程中找到价值,进程是咱们做机器学习的这个进程,咱们再讲大数据必定要把数据和智能结合起来,要有全盘的规划。在这个视点来讲咱们要拿什么数据是为了完成方才各位说的完成某种意图咱们寻觅适宜的数据,而不是拿到一切的数据觉得反正是个宝物留下来就好,数据大也有许多好的方面,很丰厚,也有许多坏的方面,是噪声,有些可能是过错的,假如没有一个有用的算法和方法,把噪声去除去,把信息发掘出来,其实大数据不见得是有价值的。

  终究钱卫宁教授做了对这个问题进行了总结:咱们的一个观念是说,数据其实很像咱们从前的电,有电之前跟有电之后使用是不相同的,假如我有了电我仍是在用蒸汽时机觉得说这个电没有多大的效果,现在又了数据之后,咱们可能说一个事务的模型或许决议计划的模型都是要变的,所以就是说可能你方才讲的有了数据之后我仅仅一个展现仅仅出一个报表这个仍是归于传统的这个思想形式,可是更多的要讲说咱们有了这个数据之后怎样样依据这个数据重构,去从头来规划咱们整个事务的流程,这样能够把数据用的更好。

  数据清洗,怎样区别沙与金

  在上个问题中说到数据价值,数据好的方面,也有许多坏的方面,是搅扰,是噪声怎样才能经过有用方法,把噪声去除去,把信息发掘出来?下面几位专家就数据清洗的问题又进行了更深化的评论。

  周晓方教授:数据质量办理是大数据的一个问题,要从数据的完整性方面来看待这个问题。比方网上一部分人的观念不能代表整个社会,由于数据不完整。还有时效性、准确性、一致性等等,这个都是传统的问题。数据清洗这个问题现已研讨了许多年。现在咱们自己的研讨团队也是一直在推这个数据质量办理,现在荣耀都被AI拿走了,可是为AI进行支撑的数据办理、数据剖析、各种大数据的差异都是在后面静静在做的。假如不把这个底层的数据支撑做好的话,那么也就是酷炫的都没有用。

  章文嵩总裁:数据质量十分要害,假如数据禁绝你得出的任何定论都有问题。这里边咱们面对的一些问题,处理的方法涉及到数据的搜集、出产、传输全体的这个进程,咱们对数据肯定是层层要做校验,哪些校验有些环节数据禁绝了,或许有些环节数据丢了。就拿滴滴来说最重要的一个缝隙,用户进来那个冒泡表达了他的这个意图地,冒泡之后咱们有许多的动作,然后用户是个发单,渠道是否派单,派单后履行终究到完单付出。这个漏斗模型其实层层环节都要校验。所以这个数据,能够帮咱们定位哪些买点是对的,哪些环节是咱们网络传输软件处理的BUG导致数据丢掉了,这是层层校验,就跟财政做校验相同,每个环节都要校验,保证数据准确性和软件的正确性。

  刘铁岩院长:我触摸过许多传统企业,在跟咱们聊的时分更多不是讲大数据,是讲AI。在深化交流的时分,处理榜首问题是大数据问题而不是智能问题。他们的愿景是想用智能处理某个使用,实践上整个公司里的数据底子没有办理好组织起来,回到大数据真的十分重要。先是数字化,然后是传统的办理再是数字清洗。从做机器学习和AI视点来看,什么是数据清洗什么是数据办理,咱们期望从最原始的数据开端动身,然后经过特别杂乱的链路,连到终究使用上。每个环节可能都供给反应信息。假如咱们不做端到端的处理,分裂开有可能会呈现什么现象?咱们在前期做数据处理的时分以为是噪声的问题,可能是信号,咱们以为是信号的东西也许是噪声。那么怎样在整个数据链路的智能化的进程中都给咱们一个时机,从前当成是噪声清洗掉的东西是有时机从头发掘和重复匹配的,从前被你认为是有用的东西要不断的鉴别里边的宝物在哪里,问题在哪里,这是一个弥补。

  数据使用,资源的分配与民生

  在随后的评论活动中,几位专家还就智能出行的无人驾驶对人们日子的改动,经过大数据怎样削减东西部贫富差距等问题进行了深化交流。将技能评论提高到了民生问题的高度。

  咱们信任,跟着大数据技能的深化使用,未来紧缺的公共资源应该可能得到愈加合理的分配。比方春运的火车票能够给有实在回家需求的购票者更多的购买时机,急需就医的患者能够更便利进行挂号,大众的交通也能得到有针对性的调理。大数据的明日将会令人们的日子愈加夸姣。