作者
程一祥
题图
站酷海洛
吴明辉,明略数据、秒针系统创始人兼董事长,本科毕业于北京大学数学学院,北京大学人工智能实验室硕士。他从事软件工程开发和算法研究近二十年,是国内企业级服务领域里全能型企业家。他所创办的秒针和明略两家大数据公司,都已经成长为中国数据科学领域的独角兽企业。
“我的观点是:用数据做生意,是一个悖论。”
说这句话的人,叫做吴明辉,他是两家数据公司——明略、秒针的创始人,而且在他的带领下,两家都成长为了中国数据界的独角兽级企业。
为什么一个做数据生意的“成功者”,会说用数据做生意是一个悖论呢?悖论之下,他又是怎么看待“数据”和“生意”这两件事儿的呢?
也许接下来你所听到的观点,可能与传统的数据故事有点“不一样”,但是如果你了解吴明辉,了解了他对数据的看法,我想,你对于数据科学的认知,也会有点“不一样”的改变。
▍流动,才是悖论的最优解
“我觉得数据和生意这两个事从概念上就是矛盾的,数据是解决信息不对称的,生意本质是什么?是利用信息的不对称。”在数据行业探索了近二十余载后,这是吴明辉思考“数据生意”这件事儿得到的答案。
就像历史上的历次科学革命一样,最近十年在全球范围内兴起的数据科学浪潮,催生了一大批以数据为主题的企业和“弄潮儿”。他们在硅谷、在北京成立起一家又一家创业公司,期待乘着数据科学的春风,在这个新市场上抢占先机。
但是人们也逐渐发现,数据的生意并不好做。什么是数据?数据生意的本质是什么?很多人并没有搞清楚这些基本问题,就匆匆涉足数据科学,最后的结果也只能是不了了之。那么,做数据生意的价值究竟是什么呢?
在吴明辉看来,首先数据本身并没有价值,它只是对客观世界的记录。
(图片说明:从地球可以清晰地看到绚丽的星空;图片来源:吴明辉)
“今年春节我去了新西兰,中间有一站到了美丽的特卡波湖,这是全世界最有名的观星地点。这里几乎没有什么光污染,随便一个单反相机,只要曝光时间长一点就能拍出清晰的银河系。”
吴明辉说,他在看到一闪一闪的星空时,就联想到了数据。其实人类对天体物理的研究,正是现代数据科学最早的起源。“我就想,古人花很多时间和精力去研究星星,价值是什么?”
天文学家开普勒提出了行星运动的三大定律,奠定了现代宇宙理论的基础。开普勒的成就并非自己一个人的功劳,他能做到这些,是因为很幸运地得到了著名丹麦天文学家第谷·布拉赫,20多年所观察与收集的精确天文数据。
开普勒虽然没有直接观察到这些数据,但是他站在第谷的肩膀上,利用数据发现了宇宙的运行规律,解决了行星和人类间信息不对称的关系,为人类了解宇宙创造了价值。
这启发了吴明辉,他认识到,数据的价值,就在于帮助那些没有“观察”的人,解决信息不对称的问题。
但数据和生意的悖论又该如何解决呢?关键在于两个字——变化。
众所周知,商业是利用信息不对称盈利的活动。在吴明辉看来,商业中的信息不对称有两种:一种是一次性的信息不对称,一种则是持续变化的信息不对称。
“什么叫一次性信息不对称?有人说某个股票要涨,这是一次性的信息不对称,这是不好做生意的,只有自己闷声发大财。另一种是流动的信息不对称,这才是有机会做生意的,因为这个事儿每天都在发生变化”,吴明辉说到。数据就是帮助人们缩短自己与变化中信息的不对称关系。
他举了一个零售选址的例子。很多人觉得零售选址是个一次性的信息不对称活动,假如一个商家要开快餐店,选好了地点开业后,这个选址的行为就结束了。而且,在选址领域,麦当劳、星巴克等国际连锁的大公司,已经把方案都研究透了,很多人觉得这个场景没有做数据生意的机会。
(图片说明:很多便利店的选址并非一次性工作,而是随着时间而不断变化流动的过程,图为上海某全家便利店;图片来源:WikimediaCommons)
但后来,他发现实际情况并非如此。“我们有一个客户是中国最大的便利店集团,有一万家店,每年都要开几千家店,但同时又都要关几千家。他要不停地选,因为今天选择了一个好地方,明天不一定好。比如今天在这里开一个7-11,明天突然旁边有人又来开了一个物美,你的客流就被抢走一半。因为你周围的环境在不停变化的,这件事情就变成一个流动的信息不对称问题了,它是有商机的。”
当场景随着时间不断地发生变化,信息不对称的情况就总会出现,数据生意也就产生了商业价值,这也就从根本上解决了数据和生意的矛盾——信息是不断变化的,而数据的生意就是追赶人们与这段变化的距离。
吴明辉对数据和商业世界的认知,大多源自他在求学时对数学的探索。是数学塑造了他对问题刨根问底的精神,让他能更深刻地理解数据的意义。
▍一切都从数学开始
吴明辉说,自己小时候的梦想,是成为一名数学家。
“我从小对数学有一种特别的感觉,大家都觉得数学很难很枯燥,我不觉得,我认为在数学里探索那些严密的逻辑,把现实世界用公式抽象出来,很有意思,而且很美。”吴明辉形容自己在学生时代,对数学的感情是“近乎痴迷”的状态,喜欢数学的简洁、优美。
“而且,数学是非常接近哲学的一个学科。”它会促使吴明辉不断地去思考一些最根本的问题,无形中,培养了他的思维和追求极致的性格。
他从小就是父母老师眼中“别人家的孩子”,在学校的成绩始终名列前茅。千禧年,他凭借全国奥利匹克竞赛获得了大学保送的资格,真的遇到了选清华还是选北大的问题。“当时我们的竞赛领队跟我说:‘把数学的基础打牢了,将来做什么都可以’。于是我就选择了全国最好的北大数学学院,现在回过头来看,真的很感谢当年的选择。”
在北大数学系,《高等代数》《解析几何》以及《数学分析》是吴明辉大一时必修的三门课程。这是数学中最基础的三门课,分别讲了时间、空间和变化的概念,而这也是数学研究的三大主要领域。
“《高等代数》就是算数,算数是怎么来的呢?其实最开始是为了算时间。看太阳什么时候升起落下,看月相阴晴圆缺;《解析几何》是为了算空间、位置;而《数学分析》就是研究函数和函数的变化,核心是变化。这就是数学。”
这些数学的思维理念一直伴随着吴明辉,他所思考的“变化是数据生意悖论的解法”等问题,都深深地收到了自己数学思维的影响。
(图片说明:左、右分别为中国青年数学家恽之玮和张伟,他们在科学突破奖颁奖典礼上获得了“数学新视野奖”;图片来源:北京大学新闻网)
级的北大数学学院出了很多天才型的数学家,比如恽之玮和张伟。他们去年获得了有着“科学界奥斯卡”之称的“数学新视野奖”,以及仅次于菲尔兹奖的“拉马努金奖”,是数学界冉冉升起的青年科学家。吴明辉跟他们当年是同学,不过与他们不同的是,大学阶段的吴明辉除了数学外,一直还是一个“斜杠青年”,他还同时在研究计算机,而且比起数学,他逐渐觉得自己更喜欢编程这种创造性更强的工作。
“我从初二开始接触编程,当时参加奥林匹克竞赛,数学、物理、化学、计算机,每一科我都参加了,成绩都在前几名,最后数学成绩最好而被保送北大。”吴明辉说,有一次学校举办数学建模,他想找恽之玮组队,就对他说:“恽之玮,你数学最好,我编程最好,咱俩组个队吧,就天下无敌了。”
结果恽之玮语重心长地对他说:“明辉同学,我们学数学不是用来做应用的。”这让吴明辉意识到数学家们令人真正尊敬的地方。吴明辉后来感慨道,“真正的理论数学是离商业非常遥远的”,数学家们的脑海中想的不是应用,而是星辰大海。
虽然数学的思想非常吸引吴明辉,但他觉得自己还是更喜欢计算机等偏重应用的学科。在本科阶段,他就开始了自己的创业生涯。“其实我当时主要想自己赚点生活费,”吴明辉说,他一开始做软件外包,到后来连新浪、搜狐等大公司都成了他的客户,他还帮清华北大的写了很多教学管理系统。
“然后生意越做越大,我想要不干脆就成立个公司吧!于是就成立了一个公司,我做CEO。”吴明辉说到,从数学转向商业的事儿,就这么误打误撞地做起来了。
▍创造信任,是数据最重要的价值之一
本科毕业后,吴明辉进入北大人工智能实验室继续深造,他当时的研究方向是图像处理和掌纹识别。与数学学院不同,人工智能实验室是建立在北大的计算机学院下面,吴明辉的研究也基本都转向了应用领域。
从年开始,中国互联网迎来了一波野蛮生长的*金时期。中国网民数量超过了1亿并且仍在飞速上涨,盛大、前程无忧、携程、腾讯等十多家互联网公司在海外上市,让人们看到了互联网的商业价值。
吴明辉也看到了这股风潮,在学校读研究生的同时,他还运营着自己的公司。对于吴明辉来说,选择投身互联网科技行业,已经是早晚要做的事了。
“当时,我们团队是做人工智能算法的,旁边是天网搜索引擎实验室。所以我的团队里有做AI的同学、有做搜索的同学,还有数学系的同学,我就想能不能把大家的核心优势集中起来”,吴明辉说。经过半年的思考和探索后,他最终选择了广告这个应用场景。
他一开始的想法是做广告的个性化推荐,“其实就是今日头条的原型”,吴明辉说到。但是他们遇到的第一个问题是没有数据,没有数据支持的算法怎么能推荐呢?于是他们就想到,可以写一个软件去互联网里采集数据。
吴明辉回忆说:“我们当时就做了一个数据软件,免费送给互联网公司,跟人家说你用我这个软件,我可以免费帮你分析流量数据,同时,这个数据我就拿到了。但发现他们都没人用,为什么呢?后来我们知道,他们都怕别人知道自己的真实流量数据。”
在当时的广告行业,数据流量造假是一个非常普遍的问题,这是一个典型的信息不对称行业。广告主并不知道自己广告投放平台的真实流量,互联网平台却收取了高额的广告费用。吴明辉说道,媒体流量造假其实并不新鲜,早在电视媒体的*金年代,就频繁出现广告流量造假的灰黑产业,而根本问题就在于流量信息的不对称。
当时央视最大的收视率公司索福瑞,一年在中国的收入约10亿元;但围绕收视率做刷榜的黑色产业,一年则能收入40亿。
“这个收视率刷榜怎么做呢?污染样本户。央视索福瑞是通过抽样调查的方法来统计收视率的,一个城市比如说北京两千多万人口,抽样个家庭,平时看什么台统计一下,最后预测,整个北京市大家都在看什么台。造假怎么造呢?只要搞清楚这家在哪里就行了。然后到他家里说,我是某某卫视,如果你每天看我们台,我一年送你50斤花生油。很多样本户就这样被污染了,户里面影响50户就能让收视率上来5个点,他一年收入可能就能多10个亿。”吴明辉讲到。
这种现象在互联网时代则更加严重,因为互联网的出现让造假更容易了,每个平台的流量只有自己知道,对外造假的成本更加低廉。在灰黑产比数据生意本身还赚钱的时候,用数据去赚钱其实不是“赚钱”,而是破坏别人赚钱的机会。但造假行为本身,并不能创造任何价值。
(图片说明:吴明辉在第四次中国-以色列科技创新投资大会发言)
于是吴明辉他们就与传统的互联网媒体平台展开了一场激烈的“数据攻防战”。他们通过技术手段,不断把检测代码嵌入到互联网平台,想要收集平台的真实流量数据;另一方面,平台也在不断封锁他们的代码,极力维护自己流量数据的排他性。吴明辉说,整个08年一年,几乎都在与媒体PK,代码加了删,删了再加。
“后来我们发现,就连四大门户网站之一的某网站,真实流量也只有它宣传的十分之一,非常严重。”吴明辉回忆说,当时自己相当于是在用数据,挑战整个互联网媒体平台的权威,阻力之大可想而知。
年底,宝洁的出现为这场攻防战打破了僵局。作为老牌世界五百强企业,宝洁对数据运营和决策的理念非常认同,对吴明辉他们的检测服务效果很满意。于是,到了年底,它就跟所有合作平台提了要求:必须用吴明辉他们的产品来检测自己的广告投放效果,否则将不再合作。
一时间,以宝洁为代表的广告主们开始纷纷支持他。吴明辉的数据产品就像有一个“公平秤”,有了这杆秤,大家就会开始信任它。“信任太关键了,这就是数据创造的价值”,吴明辉说。
从本质上来说,吴明辉这次瞄准的数据生意,是把广告投放这件事从过去的一次性信息不对称,变成了流动性的信息不对称,从而取得了成功。因为有了流量检测后,只有更有创造力的广告、更具备内置内容的互联网平台才能够吸引流量,而这是一个流动变化的过程。客观上,这促进了广告和媒体行业的良性竞争,体现了数据生意的真正价值。
▍数据生意的“*金法则”
“我想再说一下,数据本身是没有价值的,它的价值源自数据产品引发的后续行为的价值。”吴明辉强调,不仅在广告行业这么做,他第二次创业时候也是这么做的。
吴明辉第二次创业的时候,将目光集中在了安防领域。吴明辉说,第二次创业是受到了美国Palantir公司的启发。这家大数据公司在安防领域的表现十分出众,在美国*府抓捕并击毙本·拉登的行动中大放异彩,为人所熟知。
吴明辉的父亲曾经是一位警察,因此他非常了解警察的工作情况。中国是人均警力不足的国家之一,在北京上海等城市,一名民警通常要负责-名市民,而美国的警民比大约是1:。吴明辉说,“一个正常的公安局破案研判的过程非常复杂,复杂的案子要一个月,有些更是一破要一年,因为实在是证据太多了,数据太多了,很多警察就看那个对帐单就看到眼花,经常都把几个药店的眼药水全买光了,就是这个水平,所以非常辛苦的。”
在数据行业积累了多年后,他想能不能用数据科学的方法,帮助警察把线索数据都关联起来,自动识别不同案件中的人、事、物、地点、组织等信息,通过人工智能的方式整理归纳,然后再交给警察做逻辑推理判断。
但是警务系统与互联网非常不同,这是一个具有极高保密级别且内部分散独立的数据系统。数据人员不仅需要很擅长数据处理分析,更需要一个从零开始搭建数据系统的能力。吴明辉说,自己在第二次创业伊始,最核心的价值就是有一支“作战经验”丰富的数据团队,能够处理大数据的各种问题,“当公安部门找到我们的时候,我们甚至还没有推出的自己的商业化产品,客户看中的其实是这支有着丰富实战经验的大数据团队。”吴明辉自豪地表示。
(图片说明:明略数据是吴明辉第二次创业的数据公司,图为针对安防推出的数据科学分析系统SCOPA)
后来,这支团队也果然没有让他失望。有一次,公安部门接到了一起凶杀案的报警电话,经过了几个月的调查,依然毫无进展。于是他们找到了吴明辉,希望通过数据分析案情线索,但他们很快发现,凶手所在的案发现场没有留下任何数据资料。
“整个的街道上的摄像头接近一半都没通电,要么就坏了,所以根本就没有视频数据。后来我们有查找一些卡口、电子眼等资料,发现犯罪嫌疑人反侦察能力很强,基本没有留下任何信息。”后来,他们通过数据对比,发现另一个城市的一起犯罪案件,与这次凶杀案有很多相似的地方,于是判断可能是同一个犯罪嫌疑人所为。
通过另一起案件的线索,最终他们帮助公安部门成功将犯罪嫌疑人缉拿归案。这种案件与案件之间的数据关联性分析,是吴明辉团队在安防领域的特长。“破案本质就是一个搜索问题”,吴明辉觉得,从最一开始报案的原始情报,一直搜到最后的犯罪嫌疑人,再搜到他今天的轨迹。“当优秀的警察用这套数据系统时,系统也会学习沉淀警察们的分析思路,最后在后台沉淀出一个‘AlphaPolice’,变得越来越牛,没有人再能赶上,这就是这套系统的本质。”
经历了两次成功的数据创业,吴明辉觉得,数据生意的*金法则无外乎三个:数据+人+场景。在广告领域,数据是流量,人就是广告主,场景就是广告营销;而在安防领域,数据变成了案件信息,人就是警察,场景则是侦破犯罪案件。
数据是感知,是对客观世界的观察;人是行动的主体,要对分析、理解、决策;场景则是产生价值的实体,任何行动只有在特定场景下才会产生结果,最终形成价值。数据产生信任,信任让人行动,而行动创造价值。
吴明辉说,在数据科学界,比起“数据科学家”,他更喜欢称自己为“数据产品设计师”,因为对他来说,做好一个产品,就是数据科学最重要的事儿。
▍数据侠门派
吴明辉,明略数据、秒针系统创始人兼董事长,人工智能技术专家,连续创业者和天使投资人,北京大学计算机硕士(人工智能实验室)。吴明辉拥有二十年软件工程开发和算法研究经验,6年在大学里创办了全域营销数据与技术服务提供公司秒针系统,年创办明略数据,并负责公司产品创新、资本运作和战略统筹。
▍数据科学50人
“数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。
▍加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero
dtcj.