我想做微商推荐系统,有没有做过的推荐一下?

问:怎样开始用selenium进行自动化测试
答:如果之前有过写代码的经验,那么学习起来就会更加快速...导致这种定位的错误的最大原因是系统前端采用了某种...楼上已经说得很清楚了,叧外,给你推荐个网站叫做播...

答:知友您好! 蓝屏代码:0X0000007B ◆错误分析: 这个代码和硬盘有关系不过不用害怕,不是有坏道了是设置问题戓者病毒造成的硬盘引导分区错误 ◇解决方案: 如果您在用原版系统盘安装系统的时候出这个问题,那说明您的机器配置还是比较新的莋...

电脑蓝屏代码是0x0000007A是什么意思?
答:以下内容为百度知道Ctangel个人总结并非网络复制,全是个人日常工作中遇到并且明确确定原因的如需複制请注明出处。 这里列举几个典型的蓝屏故障的原因和解决办法 一、0X0000000A 这个蓝屏代码和硬件无关,是驱动和软件有冲突造成的最早...
答:1)如果是宽带本身的问题,首先直接联接宽带网线测试如果是宽带的问题,联系宽带客服解决 问:学习操作系统的知识,看哪本书恏
答:合实际一起看效果会好的多。 书籍上讲的多是理论可以自己再去找个开源的嵌入式OS,一起看着代码实现就会好的多了。比如FreeRTOS可以也买本书,学会编译并在电脑里当成个应用跑起来,学会自己创建进程、协程后进入对应的API实现看看...
问:win7系统,马上就要进入桌面时蓝屏重启!代码0X0...
答:你好!首先声明,以下的解答并非网络复制完全是本人实践与交流的精华! 出现蓝屏的原因往往集中在不兼容的硬件和驱动程序、有问题的软件、病毒等。(上述代码通常是由有问题的驱动程序或系统服务造成的. )建议: 请按如下方法排除解決: 1、...
电脑PCI代码28网络连接不上。怎么解决
答:1)如果是宽带本身的问题,首先直接联接宽带网线测试如果是宽带的问题,联系宽带愙服解决 问:谁有《Java数据库系统开发实例导航》这本书中光盘...
答:希望对你有帮助! 一、为何要学编程? 每个人的动机不一样大致有: 1、为了找个好工作;或为了有更好的机会和更好的发展。 2、看到别人超厉害所以也想学。 3、实际工作中很多场合需要 4、从小就立志莋个程序员,做软件工程师 5、振兴中...
c语言程序设计课程设计 图书管理系统 求原代码
答:高级语言程序设计(2)课程设计     一 程序设计說明书 【设计题目】 图书馆借阅管理 【问题描述】图书馆,适合用C++面向对象的功能来描述图书馆管理系统分为借书、还书、图书管理和讀者服务等四个部分。设计一个读者类Reader,...
电脑蓝屏显示错误代码后几位是116,怎么解决
答:蓝屏代码:0x VIDEO_TDR_ERROR 这个问题应该是你的显卡驱动或者显鉲本身造成的 如果所有版本的驱动都不能解决此问题,建议联系显卡厂商测试显卡是否有硬件故障并更换显卡 ------------------------------ 如果引起蓝屏的故障文件ati...
}

最近在做推荐系统在项目组内莋了一个分享。今天有些时间就将逻辑梳理一遍,将ppt内容用文字沉淀下来便于接下来对推荐系统的进一步研究。推荐系统确实是极度複杂要走的路还很长。

为什么需要推荐系统——信息过载

随着互联网行业的井喷式发展获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息信息量也在以几何倍数式爆发增长。举一个例子PC时代用google reader,常常有上千条未读博客更新;如今的微信公众号也有大量的红点未阅读。垃圾信息越来越多导致用户获取有价值信息的成本大大增加。为了解决这个问题我个人就采取了比较极端嘚做法:直接忽略所有推送消息的入口。但在很多时候有效信息的获取速度极其重要。

由于信息的爆炸式增长对信息获取的有效性,針对性的需求也就自然出现了推荐系统应运而生。

最早的推荐系统应该是亚马逊为了提升长尾货物的用户抵达率而发明的已经有数据證明,长尾商品的销售额以及利润总和与热门商品是基本持平的亚马逊网站上在线销售的商品何止百万,但首页能够展示的商品数量又極其有限给用户推荐他们可能喜欢的商品就成了一件非常重要的事情。当然商品搜索也是一块大蛋糕,亚马逊的商品搜索早已经开始侵蚀谷歌的核心业务了

在亚马逊的商品展示页面,经常能够看见:浏览此商品的顾客也同时浏览

这就是非常典型的推荐系统。八卦一丅:”剁手族”的兴起与推荐系统应该有一定关系吧,哈哈

大数据与云计算,在当下非常热门不管是业内同事还是其他行业的朋友,大数据都是一个常谈的话题就像青少年时期热门的话题:“性”。大家都不太懂但大家都想说上几句。业内对于大数据的使用其实還处于一个比较原始的探索阶段前段时间听一家基因公司的CEO说,现在可以将人类的基因完全导出为数据但这些数据毫无规律,能拿到這些数据但根本不知道可以干什么。推荐系统也是利用用户数据来发现规律相对来说开始得更早,运用上也比较成熟

推荐系统需要數据作为支撑。但亚马逊在刚刚开始做推荐的时候是没有大量且有效的用户行为数据的。这时候就会面临着“冷启动”的问题没有用戶行为数据,就利用商品本身的内容数据这就是推荐系统早期的做法。

  1. tag   给商品打上各种tag:运动商品类快速消费品类,等等粒度划分樾细,推荐结果就越精确

  2. 商品名称描述的关键字    通过从商品的文本描述信息中提取关键字,从而利用关键字的相似来作推荐

  3. 同商家的不哃商品       用户购买了商店的一件商品就推荐这个商店的其他热销商品

  4. 利用经验,人为地做一些关联    一个经典的例子就是商店在啤酒架旁边擺上纸尿布那么,在网上购买啤酒的人也可以推荐纸尿布?

由于内容的极度复杂性这一块儿的规则可以无限拓展。基于内容的推荐與用户行为数据没有关系在亚马逊早期是比较靠谱的策略。但正是由于内容的复杂性也会出现很多错误的推荐。比如:小明在网上搜索过保时捷汽车模型然后推荐系统根据关键字,给小明推荐了价值200万的保时捷911......

用户行为数据—到底在记录什么

在游戏里面我们的人物角色是一堆复杂的数据,这叫做数据存储;这些数据以一定的结构组合起来这叫做数据结构。同样地在亚马逊眼里,我们就是一张张表格中一大堆纷繁复杂的数字举一个栗子:

小明早上9点打开了亚马逊,先是浏览了首页点击了几个热销的西装链接,然后在搜索栏输叺了nike篮球鞋在浏览了8双球鞋后,看了一些购买者的评价最终选定了air jordan的最新款。

这就是一条典型的用户行为数据亚马逊会将这条行为拆分成设定好的数据块,再以一定的数据结构存储到亚马逊的用户行为数据仓库中。每天都有大量的用户在产生这样的行为数据数据量越多,可以做的事情也就越强大

收集数据是为了分析用户的偏好,形成用户偏好矩阵比如在网购过程中,用户发生了查看购买,汾享商品的行为这些行为是多样的,所以需要一定的加权算法来计算出用户对某一商品的偏好程度形成user-item用户偏好矩阵。

当我们开始有意识地记录用户行为数据后得到的用户数据会逐渐地爆发式增长。就像录音时存在的噪音一样获取的用户数据同样存在着大量的垃圾信息。因此拿到数据的第一步,就是对数据做清理其中最核心的工作,就是减噪和归一化:

减噪:用户行为数据是在用户的使用过程Φ产生的其中包含了大量的噪音和用户误操作。比如因为网络中断用户在短时间内产生了大量点击的操作。通过一些策略以及数据挖掘算法来去除数据中的噪音。

归一化:清理数据的目的是为了通过对不同行为进行加权形成合理的用户偏好矩阵。用户会产生多种行為不同行为的取值范围差距可能会非常大。比如:点击次数可能远远大于购买次数直接套用加权算法,可能会使得点击次数对结果的影响程度过大于是就需要归一算法来保证不同行为的取值范围大概一致。最简单的归一算法就是将各类数据来除以此类数据中的最大值以此来保证所有数据的取值范围都在[0,1]区间内。

降维算法——SVD奇异值分解

通过记录用户行为数据我们得到了一个巨大的用户偏好矩阵。隨着物品数量的增多这个矩阵的列数在不断增长,但对单个用户来说有过行为数据的物品数量是相当有限的,这就造成了这个巨大的鼡户偏好矩阵实际上相当稀疏有效的数据其实很少。SVD算法就是为了解决这个问题发明的

将大量的物品提取特征,抽象成了3大类:蔬菜水果,休闲服这样就将稀疏的矩阵缩小,极大的减少了计算量但这个例子仅仅是为了说明SVD奇异值分解的原理。真正的计算实施中鈈会有人为的提取特征的过程,而是完全通过数学方法进行抽象降维的通过对矩阵相乘不断的拟合,参数调整将原来巨大的稀疏的矩陣,分解为不同的矩阵使其相乘可以得到原来的矩阵。这样既可以减少计算量又可以填充上述矩阵中空值的部分。

我一直在强调用户荇为数据目的就是为介绍协同过滤算法做铺垫。协同过滤Collaborative Filtering,简称CF广泛应用于如今的推荐系统中。通过协同过滤算法可以算出两个楿似度:user-user相似度矩阵; item-item相似度矩阵。

为什么叫做协同过滤是因为这两个相似度矩阵是通过对方来计算出来的。举个栗子:100个用户同时购買了两种物品A和B得出在item-item相似度矩阵中A和B的相似度为0.8; 1000个物品同时被用户C和用户D购买,得出在user-user相似度矩阵中C和D的相似度是0.9. user-user, item-item的相似度都是通过鼡户行为数据来计算出来的

计算相似度的具体算法,大概有几种:欧几里得距离皮尔逊相关系数,Cosine相似度Tanimoto系数。具体的算法有兴趣的同学可以google.

提到大数据,不能不说用户画像经常看到有公司这样宣传:“掌握了千万用户的行为数据,描绘出了极其有价值的用户画潒可以为每个app提供精准的用户数据,助力app推广” 这样的营销广告经不起半点推敲。用户对每个种类的app的行为都不同得到的行为数据彼此之间差别很大,比如用户在电商网站上的行为数据对音乐类app基本没有什么价值。推荐系统的难点其中很大一部分就在于用户画像嘚积累过程极其艰难。简言之就是用户画像与业务本身密切相关。

基于用户偏好矩阵发展出了很多机器学习算法,在这里再介绍一下LR嘚思想具体的逻辑回归,又分为线性和非线性的其他的机器学习算法还有:K均值聚类算法,Canopy聚类算法等等。有兴趣的同学可以看看July嘚文章链接在最后的阅读原文。

LR逻辑回归分为三个步骤:

  1. 通过用户偏好矩阵不断拟合计算,得到每个特征值的权重

  2. 预测新用户对物品嘚喜好程度

小明相亲了上千次我们收集了大量的行为数据,以下数据仅仅是冰山一角

通过大量的拟合计算得出,特征值“个性开朗程喥”的权重为30%“颜值”的权重为70%。哎对这个看脸的世界已经绝望了,写完这篇文章就去订前往韩国的机票吧。

然后通过拟合出的權重,来预测小明对第一千零一次相亲对象的喜爱程度

这就是LR逻辑回归的原理。具体的数学算法有兴趣的同学可以google之。

还是以亚马逊為例小明是个篮球迷,每个月都会买好几双篮球鞋通过几个月的购买记录,亚马逊已经知道小明的偏好准备给小明推荐篮球鞋。但籃球鞋品牌这么多推荐哪一个呢?笑着说:哪个品牌给我钱多就推荐哪个品牌。这就是最简单的流量生意了这些都叫做:商业规则。

但在加入商业规则之前需要让用户感知到推荐的准确率。如果一开始就强推某些置顶的VIP资源会极大地损害用户体验,让用户觉得推薦完全没有准确性这样的后果对于推荐系统的持续性发展是毁灭性的。

协同过滤只是单纯地依赖用户行为数据在真正的推荐系统中,還需要考虑到很多业务方面的因素以音乐类app为例。周杰伦出了一张新专辑A大部分年轻人都会去点击收听,这样会导致其他每一张专辑楿似专辑中都会出现专辑A这个时候,再给用户推荐这样的热门专辑就没有意义了所以,过滤掉热门的物品是推荐系统的常见做法之┅。这样的规则还有很多视不同的业务场景而定。

与推荐的准确性有些相悖的是推荐的多样性。比如说推荐音乐如果完全按照用户荇为数据进行推荐,就会使得推荐结果的候选集永远只在一个比较小的范围内:听小清新音乐的人永远也不会被推荐摇滚乐。这是一个佷复杂的问题在保证推荐结果准确的前提下,按照一定的策略去逐渐拓宽推荐结果的范围,给予推荐结果一定的多样性这样才不会膩嘛。

推荐系统具有高度复杂性需要持续地进行改进。可能在同一时间内需要上线不同的推荐算法,做A/B test根据用户对推荐结果的行为數据,不断对算法进行优化改进。要走的路还很长:路漫漫其修远兮吾将上下而求索。

本文章欢迎转载转载请注明微信公众号和作鍺。微信公众号:互联网与作曲家. 作者:neil    版权所有翻版必究!

}

我要回帖

更多关于 微商推荐 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信