数据产品经理的目标、方法和成长路径

数据产品经理的目标、方法和成长路径插图

世界至少有两个平行的空间,一个是模拟信号所代表的现实空间,另外一个是数字信号所代表的数字空间。数据产品经理,应该能将模拟世界和数字世界串联和映射起来,并用数字世界的真理和准则,指导众生领会模拟世界的运行,即可以像考古者一样解释过去的历史,又可以像先知一样,预测未来的发生。

困局:此数据非彼数据

数据产品经理们可以回顾一下那些让人揪心的场景:

1、客户问:你们收集了哪些数据?

2、客户问:你们有哪些数据?

3、客户问:你们加工了哪些数据?

4、客户问:你们使用了哪些数据?

我相信多数销售经理、咨询经理、产品经理甚至技术工程师,或多或少的被问到了这些问题。

很难回答,不是吗?有没有觉得好像有哪里不对?

无论是否能精确、简明的回答上述问题,作为数据产品经理或者想成为数据产品经理的你,都需要面临一个基本问题:四个问题中,四个“数据”的概念是否一样?

在这里,我想强调一点:在应对模拟世界的提问的时候,恰恰是语义、上下文情况、甚至语气上的些许差异,都会让“此数据非彼数据”。

能清晰的回答这四个“数据”的概念的人,应该已经对数据产品有了初步的感觉。数据产品经理,正是需要在以上四个不同的阶段,对数据进行解读、加工、描述和使用。

概念清晰与否,直接影响后续工作是否精确。数据,是特别让人困惑的一种概念(不是实体、变化多端、甚至不着边际),因此,数据概念的精确梳理,是后续逻辑是否正确的重要保障。

解读:认知心理学视角

为什么要扯到认知心理学?

我认为多数人,无论是TalkingData员工还是客户,在没有经过体系化的培训之前,对数据的概念的了解都是很片面、碎片化的,对夹杂着业务逻辑的客户数据,更是如此。要让客户“最终认可”一份数据,需要面向不同概念阶段,帮助其构建起一个充分可靠的认知过程。相对而言,功能性的产品经理在设计一个按钮时,所需要客户建立起来的认知过程会简单很多(可能只需让客户觉得好看、好用就好,这是模拟世界的典型特征)。

让·皮亚杰总结了认知心理的发展过程:

1、感知:能感到一个实体。

2、运算:可以对此实体进行简单操作。

3、改善:可以对实体进行重组和改善。

4、形式:以命题为出发点,反复推导、演绎、推理,衍生出无尽的形式变化。

说回到第一节那四个场景中的数据的概念:

第一个“数据”:其实客户问的是,你们收集了哪些数字?在这个阶段,数据多数只代表一种能被感知的存在。这种原始的、冷冰冰的数字,是一种原始的基础。它更多包含了对未来潜力的基础性保障,例如,TalkingData 的平均月活跃用户为 7 亿、数据覆盖超过 50 亿部设备,可以让客户产生一种“多而全”的感觉,相信这些数字有巨大的潜力。

第二个“数据”:其实客户问的是,你们计算出哪些数值?在这个阶段的数据产品,一般提供了一些简单加工的结果。例如“每日新增”、“每日活跃”、“留存”等等。对原始数据的简单运算,可以构建出满足最基本需求的应用。这个阶段的数据,可以让客户对现实世界有个初步的定量认知。

第三个“数据”:其实客户问的是,你们使用了什么模型、算法,在数值的基础上,又提炼出哪些有价值的信息?在这个阶段,需要对数值进行有“根据”的改善,例如“某列数据的方差较小,它对回归方程的贡献较小”、“空间聚类后的结果,在理论上呈现某种空间自相关”特征。一般来说,这个阶段的数据,已经从模拟世界进化到真正的数字世界,呈现出趋向定性的结论。

第四个“数据”:其实客户问的是,你们的数据是否可信?在这个阶段,数据将逐步代入到业务实现中进行验证,经过多轮的迭代,数理逐步产生,在经过形式化的推演后,数字世界会被证明可以精确、完整的映射模拟世界,替换模拟世界的不可量化的过程、方式或者方法。

总结一下:4 大认知过程、4 大阶段“数据”的概念内涵、4 大阶段“数据”所对应的具体工作,是如此被交织在一起的:

数据产品经理的目标、方法和成长路径插图

数据产品经理的基本任务就是将数字变成数值、提炼出信息、最终用数理来解释和指导业务。这个过程,客户的认知也将从感知走向运算、从改善走向形式。认知的终点,将是认可数据的作用,并相信数据真能解决业务问题。如果能完整的完成上述的工作,这个数据产品才算是一个可靠、可信的数据产品。

破局:目标、方法

1、隐含的工作目标

第二节讲述的,是认知发展的阶段,并尝试映射进数据加工的四个过程中。我并不满足这个解答:为什么很多人(数据工程师、数据分析师、数据科学家、咨询专家)在各个过程中进行辛苦的操作,但是,客户仍然不认可数据,或者说在业务场景中数据没有体现出价值呢?

可以明确告诉大家的是:有一只无形的手,在扰乱数据处理过程,导致各种不和谐的产生。我们还是再仔细观察一下处理过程是如何开展的,如下图所示:

数据产品经理的目标、方法和成长路径插图(1)

可以肯定的是:我们苦心将数字一步步加工到数理的过程,是期望让数据的混乱度逐步减小的过程,是让数据的置信度不断增加的过程。

但是,请扪心自问一下,日常工作中,我们在每个处理过程中,是减少了混乱度、增加了置信度,还是相反?最基本的,也应该是不增加混乱度,不降低置信度吧?事实是什么呢?

我们引入一个词:Bias,这个词的汉语解释是:偏差,或者误差。增加混乱度、降低置信度,本质上就是增加了Bias——误差。这个本不该被忽视的杀手,最终杀死了数据产品,杀死了数据产品经理。但是回归到现实工作的本源,我们恰恰在工作中忽视了误差、放任了杀手:

误差的种类都有哪些呢?

数据产品经理的目标、方法和成长路径插图(2)

第一、二阶段的误差,容易控制,容易消除。到了第三、第四阶段,很容易陷入到无休止的茫然和麻烦中。数据产品经理或者数据团队是否合格,关键点在于除了关注数据处理各种工具、技巧、技能外,还需要特别关注以下两个隐含的目标:

第三阶段:“数据变化的过程中,是否可以利用算法、模型,控制、消除误差”、“数据的置信度是否增强而不是减弱”。

第四阶段:“在业务领域解释、演绎、推理的过程中,是否可以用形式化的方式,将数据的内涵,以客户完全可以理解的视角解释清楚”。

2、可行的工作方法

如何达到上述几个阶段的彼岸呢?挺难,也可能挺简单。

在程序员的世界里,流行这样一句话:找到Root Cause,距离解决问题就不远了。在数据产品经理的工作中,透过表面现象、看到本质,同样是解决问题的关键。可行的工作方法就是:找到Bias、解决Bias。

数据产品经理的目标、方法和成长路径插图(3)

不同阶段的情况不一样,难度不一样,定位的具体方法也不太一样。但是,无论如何,定位 Bias,是重中之重,都要花 200% 的精力和专注去做这部分的工作。

对应第三阶段的目标:在第四章,我会讲解如何使用算法、模型,在人口统计、地理分析的过程中,如何定位 Bias、消除 Bias。

对应第四阶段的目标:在第五章,我会讲解如何用形式化的表达形式,将难以理解的数字,转换成可理解的业务表达。

以算法和模型减小数据数据处理中的误差

1、业务问题的提出:

客户需要区域网格内的居住人口、工作人口、流动人口数据。

2、 第一轮定位Bias:

能否直接交付设备数据?众所周知,原始的居住设备数据、工作设备数据,存在某种偏差,所以不能直接交付。首先要解决的是,Bias是什么?怎么产生的?

产生的原因也是不言而喻的:(第一阶段)采集数据本质上,只是样本空间的一个子集:客户需要的是人口数据,我们提供的是“在一定规则下”的设备数据。进一步考虑:Bias,到底有多大,并呈现怎样的规律?

数据产品经理的目标、方法和成长路径插图(4)

数据产品经理的目标、方法和成长路径插图(5)

我们可以发现Bias,呈现了如下规律:

3、第二轮定位Bias:

解决了城市级别的人口数据,离真正的客户需求还有一段距离。客户需要的是区域网格中的数据,特别是网格的大小,大约会在50米以下。根据区域数据的不同精度,加权计算出来的整体系统误差,大约在百米以上。那么,我们能否使用这种数据进行估算,还是要看一下,整体误差在大数据的加工过程中是否能被消除。

假设在一个巨大场景中,例如大范围地理空间、大尺度时间跨度的数据集合上,我们猜测,整体的误差会随着个体误差的相互抵销,被奇妙的消除。

想要证明这个假设,其实需要拿出这样一个证明过程:TalkingData的数据采集,在大范围的地理空间上和大尺度的时间跨度下,是平稳的。

为此:我们计算了北京、上海每个Geohash 7位的网格中,每天、每小时出现的设备数。在此基础上,观察其均值和方差。特别是方差,我们将方差值归一化并映射成颜色的梯度,数据呈现非常有意思的特征。

数据产品经理的目标、方法和成长路径插图(6)

数据产品经理的目标、方法和成长路径插图(7)

我们发现两个城市均有相同的规律:

  • 绿色的部分,即城市中心的网格(例如 152*152m)中,不同天相同小时段出现的设备数差异很小。说明:每天、每个小时在这些网格中出现设备大约是一个规律的值。业务的解释是:在大范围地理空间、大尺度的时间跨度下,不是你出现在这个网格,就是我出现在这个网格。整体上,系统是平均的。
  • 黄色的部分:北京南站、北京站、北京西站、机场、杜家坎附近等等典型的地区,上海站、虹桥机场等典型地区,由于这些区域每天的人流量变化大,方差大,系统采集是不均匀的。

4、解决Bias:

经过以上两轮的数据验证,可以认为TalkingData采集的设备数据是均匀的、呈现一定规律的。我们最终使用了“梯度提升树”这个算法,构建了一个模型,包含的特征有“TalkingData设备数据+POI密度+围栏到城市中心点距离+城市等级等”,可以进一步计算出每个城市人口数据统计规则的差异。

最终得到了这样的结果:我们需要根据城市发展的状态以及所处的地区,进行统计规则的修订。例如:在东北、西南等偏远省份、城市,居住人口的定义上修正如下:在半年中夜间9点到早晨9点,出现在某个地理位置点超过N次(例如28次)的设备。由于规则进行了修正,每个城市的人口数据也就产生了变化。

5、评估效果:

解决Bias前:TalkingData居住人口数据与客户提供的人口数据差异率大约在90%以上,最大差异接近600%(在某些4线城市,客户提供的人口数据是TalkingData设备数据的60倍)。

解决Bias后:在街道级别下,TalkingData居住人口数据与客户提供的人口数据差异率降到20%左右,最大差异控制在100%以内(极个别)。

6、业务进一步使用:

计划将居住人口、工作人口、流动人口,纳入到客户和TalkingData合作的门店评估模型和营业额预测模型中。

回顾一下这个过程:

数据产品经理的目标、方法和成长路径插图(8)

对于我们:

1、正视、发现Bias是关键。

2、解决Bias靠模型和算法、靠多元数据的纠正。

3、靠市场评估最终效果。

对于客户:

1、了解数据采集过程。

2、了解设备数据加工过程。

3、了解使用模型纠偏过程。

置信度稳步提升,认知过程的结果是被认可。

用形式化弥合数据和业务之间的鸿沟

产品经理在面对数据的时候,会遇到一堵墙。左面是数字、数值、算法、模型;右面是业务、领域知识。这堵墙其实就是数字世界和现实世界之间的鸿沟。当我们已经将数字转化成数值,又用模型加工成真正的数据之后,最后一步,就是如何“用现实世界的语义,来表达数字世界的结论”。形式化是打破这个墙的武器之一。

我们还是来看个案例:

1、业务问题的提出:

某酒店集团需要在整个区域(例如北京市)中,探索哪里是可以开店的潜在位置。

2、问题的定位:

我们首先应该拿出所有北京酒店与竞品酒店的门店地址。最简单的,就是把这些点都投射到地图上。就是下面这样一个图:

数据产品经理的目标、方法和成长路径插图(9)

3、请问,这样能给客户解释吗?

我觉得已经有了一些线索:感觉有些地方挺多,有些地方很少。但是再思考一下,解决这个问题,需要做好两个工作:

4、问题的解决:

数据产品经理的目标、方法和成长路径插图(10)

(北京 5 星级酒店的密度图)

数据产品经理的目标、方法和成长路径插图(11)

(北京 4 星级酒店的密度图)

数据产品经理的目标、方法和成长路径插图(12)

(北京 3 星级酒店的密度图)

数据产品经理的目标、方法和成长路径插图(13)

(北京经济型酒店的密度图)

回顾一下这个过程:

数字是很难被客户理解的,如图一,密密麻麻,如同散沙。客户不知道其想要的,其实就是密集和稀疏的度量,客户还很难想象“密度边界=业务区域的边界”。我们用核密度这种算法进行加工,并投射到地图上。很清晰的勾勒出边界。

合理的数学算法与合理的形式化表达,完全可以提升客户的认知。不要让客户去理解数字,而是让客户看到数字的结果。

现实、路径、未来

多数场景中,对于我们而言,其实仍然逃不出哲学的三个基本问题:我是谁?我从哪里来?我到哪里去?

多数场景中,对于我们而言,其实仍然逃不出哲学的三个基本问题:我是谁?我从哪里来?我到哪里去?

1、首先看看:我是谁?客户是谁?

作为数据产品经理,要对自己的数据(认知)成熟度有准确、清晰的度量。可以参考下表,大致评断个人所处的成熟阶段:

数据产品经理的目标、方法和成长路径插图(14)

多数的数据产品经理,肯定能够达到II级的水平。从我们自身的历史角度看,2014年之前,如果是I级或者II级,就可以满足业务发展的需求。但是目前,客户需求已经提升到III级,某些最高端的客户,已经达到IV级水平。那么,数据产品经理的发展要求,已经不言而喻了。

2、再看看:我从哪里来?

每个人都有各自的边界,不巧的是,数据产品经理恰恰是一个横跨三个领域的跨界专家。下面这张图,可以清晰的看出,每个人可能所处的位置:

数据产品经理的目标、方法和成长路径插图(15)

其他专业领域的人如果想成为数据产品经理,都有其已经具备的基础能力,也有需要补齐的能力:

  • 业务分析师:具备很深厚的专业业务领域的知识,或多或少做过一些分析工作(例如使用 Excel)。想成为数据产品经理,需要进一步积累数据科学方面的知识;并提高自己的动手能力(例如很多分析师不会 SQL,只会简单的 Excel)。
  • 数据科学家:具备深入的数据科学方面的知识。想成为数据产品经理,特别需要增加的是行业知识。业务输出是非常重要的,数据、算法、模型最终是为解释和支持业务服务的。
  • 数据工程师:具备大规模并行计算方面的系统能力,但是很普遍缺少业务能力和数据能力。需要花费大量的精力补充上述两点的能力。

3、再看看:我到哪里去?

知道了自己的现状,并针对性的弥补了缺陷后,就应该进入市场进行验证了。数据产品的最终目的,本质上是数据的商业变现。数据产品经理,需要和团队一起,在不断的迭代中沉淀业务能力,优化数据、优化模型、优化系统。我非常喜欢下面的一张图,作为一个数据产品团队,最终要构建的是这样一个完整的系统。

数据产品经理的目标、方法和成长路径插图(16)

总结

说了这么多,应该总结一些重点:

1、解决认知为终极目的,小心Bias

2、解决过程首先要发现Bias、再解决Bias

3、解决Bias,要利用数字、数值、算法和模型,缺什么补什么,算法模型是终极武器,形式化是重要配件

4、算法模型必须回归到业务,产生新的数字、数值、算法和模型、形式化表达

5、不断迭代,反复执行2、3、4。最终构建起从业务出发,利用数据、算法、模型,以高置信度解释业务的系统。

世界上没有简单的事情。作为数据人,我们在做一件很伟大,而且是正确的、但是很难的事情:就是利用数学,描述、解释、控制、优化整个世界。我们才刚刚开始尝试,这必将是一个长期的过程,遇到困难是很正常的。我们应该做什么?其实,很简单,可以用热力学第二定律来解释这个现象——将混乱的系统整顿的有条理,需要的是能量,别无他法,也没有捷径。

数据改变生活……