query.js
百度统计
百度商桥
跳转

● 走出大数据“迷思”,“非技术因素”才是关键!

发布时间:2020-04-16 14:16:06     作者:

两个多月以来,艰辛的疫情防控虽还在鏖战中,但一个基本的共识已经形成,那就是数据的及时获取、分析、上报和预测对判断疫情发展趋势、打好武汉和湖北保卫战是极其重要和无法代替的。


两个多月以来,艰辛的疫情防控虽还在鏖战中,但一个基本的共识已经形成,那就是数据的及时获取、分析、上报和预测对判断疫情发展趋势、打好武汉和湖北保卫战是极其重要和无法代替的。


当前,大数据的发展及成效是有目共睹的,但从与时俱进的眼光看,创新和完善的空间始终存在,“取数难、用数难”的瓶颈始终制约着大数据价值的进一步挖掘。借鉴“战疫前线”大数据应用的宝贵经验,笔者就如何进一步用好大数据、走出大数据“迷思”提出几点认识。


 


并非只有数据完备才能做事


疫情的“数据”防控工作集中反映的问题是欠缺真实、准确、及时的数据,比如由于数据采集不规范、数据不精准、标准不统一、报送不及时、多头要报表、统计口径经常调整等问题,使得通过数据分析来“放大”背后的问题成因以达到“见微知著”变得困难重重,也似乎使“显微镜”的作用失灵。


但实际情况是,无论付出多少代价,这样的问题将永远存在,差别只是程度轻重问题。因此,真正要面对的恰恰是这种情况下,如何提升“显微镜”的抗干扰能力。而这样的能力提升也就意味着数据分析不能只是对数据质量“坐享其成”,其本身的分析方法和工具等,也要具备“慧眼”能力。


所谓错误的数据是人为定义的,它能够被收集,就说明它是自然的、中性的,没有对错之分。只是数据分析不能靠加减乘除简单地一望便知,而是要回溯数据收集过程的“扭曲”机理,这就是为什么有实践经验和实践悟性的大数据人才在数据分析中会变得越发重要的原因,这种实践能力会让我们识别所谓的错误数据,是经过什么样的“行为加工”所致。这必定是一个需要反复甄别讨论的过程,而不是一上来就拿起数据投入“算法”。


非技术因素反而对大数据平台起决定性作用


本次疫情中,公安、卫健、民航、铁路、电信等数据资源的集中效率极高,没有司空见惯的数据壁垒和垄断问题,这也为实现疫情排查、追踪传染源、疫情扩散预警等场景应用提供了重要的数据支撑。但同时似乎在强化一个已获得普遍认同的结论,即似乎只要大数据平台建成,就可“毕其功于一役”。


但现实并非如此,各类数据天然的“自成体系”非常容易造成相互之间“难以理解、难以沟通”。同时,平台之所以难整合,本质上是难在利益,包括权力的整合,而且一些平台最终不了了之,多因只看到平台的技术特征和技术优势,没有注意到“非技术因素”反而是在起决定性作用。


另外,数据之所以有“透视镜”功能,简言之就是拥有“透过现象看本质”的能力,这样的能力发挥最终还是要依赖数据专家的分析水平,就像刑侦案件的证据与类似李昌钰的刑侦高手。如果不重视培养专家人才,用好专家人才,仅靠“数据集中”的办法实现透视功能,无疑会陷入“数据惰性”,即只单纯依靠不断“数据输血”解决问题,殊不知实际解决数据问题的真正能力却在退化。


基于现实的数据分析才是真正的心中有数


有观点认为,数据集成及智能化技术的分析应用不足,是使大数据“望远镜”作用发挥不充分的主要原因。


此次疫情中,由于数据贯通、数据集成等基础工作的不足,以及利用人工智能、数据挖掘等先进技术的灵活性不够,大数据未能充分发挥对疫情峰值、拐点、扩散区域等相关内容预测研判的功能,以致出现疫情时防控措施准备不充分、防疫物资储备调配不及时等现象。


这些现象确实可以从实际当中观察得到,但问题是,即便具备数据技术运用的能力,“疫情防控措施准备不充分、防疫物资储备调配不及时”的问题就能得到解决吗?


如果说后者的操作要依赖于一线忙碌的人们,那么前者就是坐在写字楼里摆弄鼠标的人们,他们之间该有多大的“鸿沟”?


真正的望远恰恰不是离开现实有多远,而是数据工作者沉下去,把现场一线作为数据分析的大舞台,只有让那些传播动力学模型、动态感染模型、回归模型等大数据模型和技术鲜活起来,才能对趋势研判真正心中有数,及时发现隐患点和薄弱点,洞察重点和难点,这样的数据分析对决策的支撑才能称得上是有效的。


图片最大100%