【亿邦动力网讯】11月23日~24日,在由商务部电子商务和信息化司指导,成都市人民政府和四川省商务厅支持,亿邦动力网主办的第七届中国网上零售年会上,著名数据分析师车品觉及淘宝商业智能部杨滔围绕“从数据发现小而美”,进行了精彩的演讲。

著名数据分析师车品觉

淘宝商业智能部杨滔
以下是演讲实录:
车品觉:大家早上好,其实今天大家不用听我这么烂的普通话,因为我请了我们公司的数据分析师过来。我现在已经不是支付宝的人了,我现在管淘宝和聚划算。我进去淘宝的这段时间里,淘宝在讲小而美,相信对淘宝熟悉的人,都会很熟悉。我听见的小而美是一个概念,但我跟我的数据分析师说不是。我要提的另外一个问题是很多人对数据挖掘是有错觉的。一方面是把数据挖掘这个词看得很神话,一方面是有些人把数据挖掘认为是一件不可探索的东西。所以今天我特别跟我的数据分析师谈过,说怎么可以用通俗的词让大家了解数据挖掘。现在有请我的数据分析师替我解释一下。中间有什么问题,我也会串场一下。有请杨滔。
杨滔:今天我们跟大家分享的题目是“从数据发现小而美”。我们先看一个小故事,陈先生是一个画廊签约的职业艺术家,同时也是一个淘宝的店主。他的店商品不多,有一些别致的茶具,餐具,油画等,店铺里面没有特别明显的商业气息,都是根据他的艺术品位挑选的,从来不打广告,不聘人,但是有一部分忠实的粉丝,粉丝肯花钱,对他的熟客有一定的议价能力。这是他自己说的话:我不希望成为纯粹的商人,我坚持做自己喜欢的事情,而且能挣钱,通过淘宝认识了不少有同好的朋友,这不是很好嘛。但是有一个问题,淘宝网如果想打造多元化的生态系统,如何能够规划化科学化的找到小而美,在这里我们通过数据挖掘找到小而美。
定义“美”,是综合打分中,不是说销售额不重要,而是多个指标综合的打分才是美。所以今天我们来看,如何从数据中来发现美。大家如果有什么问题的话,可以随时打断我。
我们知道人脸是美的,一般的人都会觉得你如何从数据中客观地发现人脸的美。古希腊的哲学家毕达哥拉斯就说过,比例和谐是美。现在科学可以把人脸的照片分解为图像的元素,图像的元素就是数据。通过很多数据指标,同时找到公认的美的样本,大家觉得这些是美的的样板,通过这些公认的美的数据和所有的样板做比较,可以限定这种美的的样本。最后我们得到一个美指数的打分,这是一个真实的项目。是06年发表在神经计算的文章,大家有兴趣可以看。人脸的美,这样特别主观的因素,我们可以发现规律,很有意思的特征。
回到淘宝的小而美,首先我们先选到了100多个衡量的变量,我们分析卖家是不是有忠实的粉丝,卖家对它的评价是什么,打不打广告,做不做服务,多个维度中,我们来分析卖家是有什么特点。和美的相关的变量太多了,如果只看评价,很多卖家评价不是特别高,但是有一批忠实的粉丝,议价能力很强。
我们先看一个例子,这是一个聚类的例子,数据挖掘的例子。通过行星自动聚成了三个类别,分别有不同的生命周期和特点,也就是说自动把行星分成了三个类,有不同的群和特点。我们用到淘宝的数据中,我们发现有很多的变量都有这样的特点,比如说熟客成交的占比,你的熟客在你的交易额中是多少,商品成交率是多少,一百个商品如果有90个订单就是90%。我们还有宝贝收藏率,很多这样的指标。通过这些变量我们找到小而美的种子,这些卖家,淘宝中很少的卖家,在各项指标中都是很高的,各项指标都是很强的,我们这里有一个假设,没有很多的角度,如果每个角度都很美,那么它一定美,如果每个角度都很丑,那么它一定丑。你的综合打分很低,我们认为你就不一定美。所以我们找到了小而美的种子,这些种子是各方面都比较强或者比较弱的。
我们怎么样评判一个卖家的小而美的美指数的得分呢?我们是这样的算法,种子+相似度。这些卖家是非常典型的,各项指标是非常强的,再用这些卖家做一些典型,跟所有的600万的卖家做一个比较,哪些卖家跟种子更相近,就有可能更美。比较的过程中,我们考虑了更多的变量,这些变量的权重怎么分配,算法是更新的。我们为什么需要算法,为什么需要数据挖掘的技术。人在做决策的时候,一般只考虑不多于五个变量,你很容易偏移一个维度或者两个维度,小而美是一个综合的考虑。
我们人去考虑到一些变量相关的时候,要么是百分百的重要,要么是什么都没有,像蓝色的点,计算机给我们什么结果呢?是量化,有些指标可能不那么重要,但是它也不是一点用没有。这个变量怎么调,我们是通过种子加相似度的这种聚类的数据挖掘技术做出来的,再做一个简单的例子,我们可能知道两个人是小而美的,或者是小而丑的。淘宝中有很少的卖家,一眼就可以看出它是小而美的,但是这样的卖家很少。这样一套体系怎么科学化,怎么规模化。
这是如何找到其他人的打分,我们用相似度的方法,种子和其他人的相似度到底是什么,在这个过程中,我们不断的更新每个维度的权重,让大家的打分尽量的科学化。跟小而美相关的美指数,跟以下的指数是相关的。和这个卖家,熟客单价/普通客单价,你有多少商品可以吸引人,商品的成交率是可以卖出去的。一大堆商品,你的专注度是不是高,你的好评率是多少,转化率怎么样,品质,物流,发货的评分等等。我跟大家看的这些变量,大家可能觉得这么多,哪些分重要,哪些分不重要是有量化的标准的。有些可能是互相关的。接下来我们会介绍搜索带来的流量,搜索带来的流量越多,你可能美的程度就越低,在其他的变量不变的情况下,我们把这个美指数在淘宝做了一个试验,大家投票为小而美的模型打分是高于卖家的,大家投票的小而美的打分是越靠右分数就越高。这是一个美指数分布,淘宝600万卖家到底是哪些是美的,哪些是丑的。从左到右是不美到美。小而美的美打分中,有几个变量是特别有意思的,比如说战略搜索,也就是说你是一个卖家,你有多大程度上搜索带给你的流量,你活得还好不好,如果这个卖家是小而美,很多粉丝一直关注他,可能不通过搜索直接可以找到你。所以我们发现越美的卖家,反而越不依赖占比搜索。在淘宝的营销工具上并不依赖这些。熟客的占比越美的卖家占比越高,一般的美到最美的门槛上,非常重要的是你选得有多准。
开始这个话题,有人说,你看评分率就好了,评分低的就不美。其实不一定,有些小而美不在乎个别卖家对自己的评分,他可能就专注于自己的忠实粉丝的评分。我们看这两个都很低,一个是相对于比较小的卖家,一个是销售额是3万,一个是24万,这些数据都相当的不错,从外表看,有些时候不容易知道他的顾客群所喜欢的小而美。这个是我们的数据模型发现出的小而美,我们用模型淘宝的这些卖家,美打分高比较小的卖家有什么特点。