网站内容运营数据分析析内容包括哪些

手机动态码登录
使用合作账号登录
其他账户登录
硕士,1-3年
数据分析师
大专,1年以下
大数据,开发工程师,商务智能,数据挖掘,数据分析
硕士,1-3年
数据分析师
硕士,1-3年
数据科学家,数据挖掘建模工程师,数据分析师
本科,无经验
数据分析师
简历指南面试宝典职场八卦劳动法苑职场观察
手机找工作
客服热线(服务时间:09:00-19:00)后使用快捷导航没有帐号?
查看: 9646|回复: 13
有哪些网站用爬虫爬取能得到很有价值的数据?
中级会员, 积分 485, 距离下一级还需 15 积分
论坛徽章:11
本帖最后由 goiden 于
20:06 编辑
想做数据,首先从获取数据开始。但是对于需要获取什么数据,数据可以干什么,很多人还是一头雾水,知乎达人林骏翔给出了参考。本文来林骏翔在知乎的回答,已获授权,转载请联系林骏翔。一大波数据来袭!题主问了有什么网站,能用来做什么。我给出几个API网站吧,做APP用的可能比较多,不过也可以用在日常生活中。一、生活服务手机话费充值。天气查询。快递查询。健康食谱。查医院。水电煤缴费。电影大全。谜语、歇后语、脑筋急转弯。音乐搜索。健康知识。百度糯米、团购等信息。彩票开奖以上接口都来自网站:细心的人会发现,这些功能简直是遍地都是啊,支付宝、微信什么的一大堆,哪用那么麻烦!是的,但我相信这些可能为一些不太了解相关信息的人提供了帮助。不过,虽然这些功能很多APP都有,如果自己有空闲时间又懂得编程,不喜欢别人的UI设计,自己做一做也是挺好玩的。比如:生活枯燥了,把这些谜语歇后语等根据个人喜好定时推送到自己的手机,放松身心;把一些健康小知识在空闲时间推送给自己,提醒自己……国内类似的网站还有:API数据接口_开发者数据定制API Store_为开发者提供最全面的API服务API数据接口_免费数据调用-91查|91cha.com除此之外还有一些门户网站提供了一些API接口,比如豆瓣、新浪、百度等等。二、金融数据1.股票①新浪财经最多人用的就是新浪财经了,因为它是免费的,并且使用起来也不难。以下是网上找的教程:获取历史和实时股票数据接口()②东方财富网网站提供了大量信息,也是基本面投资者的好去处。可以查看财务指标或者根据财务指标选股(如净资产收益率): &这些都是很好的投资参考,当然还有其它功能有对应的API,可以自己分析一下。③中财网http://data.cfi.cn/cfidata.aspx提供各种产品的数据(国内很多功能类似网站,如和讯、网易财经、雪球等等,具体的我没有一一试验就不放上来了,各位可以自己去试试,下同。)2.大宗商品①黄金头条——用资讯帮你赚钱这里提供了各种大宗商品的行情,也可以分析获取。包括技术分析方面。②当然还有外国网站:3.美股等综合类(其实新浪财经和东方财富等也算是国内综合的了,就不一一列举了)①Wind资讯。很多机构用的都是这里的数据,当然普通个人是拿不到的,不过如果你是财经院校的学生,他们会提供免费的数据。详见官网。②MarketData Feed and API()外国网站,提供了大量数据,付费。有试用期。③Quandl Financial and Economic Data()同上。部分免费。④96Stocks APIs: Bloomberg, NASDAQ and E*TRADE外国网站整合的96个股票API合集,可以看看。⑤雅虎财经香港版下面提到的Quandl网站有一个他们自己的Python库,叫Quandl,可惜也是收费的。pip install Quandlhttp://tushare.org/fundamental.html#id4 国内好心人做的开源财经数据接口(觉得好的可以捐助一下)。这里几乎可以获取到A股的所有信息了,还包括一些经济数据。重点是他不仅免费,还提供了一个Python库tushare。三、其它撇去上面的API不说,如果单单爬取网页上的内容下来,那就太多可以爬的了。如:1.爬取网站上的图片。包括贴吧、知乎、Tumblr、轮子哥、XXX(你懂的)。2.爬取影评、电影资讯、图书等等。比如豆瓣电影。轻轻松松掌握好书好电影。3.爬取社交网络。比如新浪微博,Twitter。(Twitter提供了API,可以提交关键字等信息爬取搜索结果中的每一条内容。)爬完可以对整个社交网络群体做个分析,情绪、作息、区域……4.一些网站有你喜欢的文章或者帖子,但是他们没有APP或者是APP做得不友好,你可以直接爬取页面信息推送到手机上。5.做一个微信公众号。有了上面那么多数据,还怕公众号没东西?生活服务、选股器、行情分析、文章推送等等等。via:数据客End.
中级会员, 积分 364, 距离下一级还需 136 积分
论坛徽章:6
这个网站可以直接获取原始数据
金牌会员, 积分 1156, 距离下一级还需 1844 积分
论坛徽章:19
挺好的数据源,收下了
高级会员, 积分 687, 距离下一级还需 313 积分
论坛徽章:7
不错,收藏,谢谢分享。
中级会员, 积分 485, 距离下一级还需 15 积分
论坛徽章:11
谢谢分享,收藏了。。。
中级会员, 积分 385, 距离下一级还需 115 积分
论坛徽章:10
支持, 收藏。。。。。&&
总结得很好
高级会员, 积分 721, 距离下一级还需 279 积分
论坛徽章:10
简直太牛了,这个做得真心不错
金牌会员, 积分 1047, 距离下一级还需 1953 积分
论坛徽章:20
好东东, 收藏下来挖掘!
高级会员, 积分 509, 距离下一级还需 491 积分
论坛徽章:4
感谢楼主分享,从热门到生活服务到金融服务,写的很全,再也不用担心微信公众号没内容写了
中级会员, 积分 486, 距离下一级还需 14 积分
论坛徽章:4
谢谢推荐,今天刚好需要爬虫。
dataguru.cn All Right Reserved.
扫一扫加入本版微信群子木-网站数据分析 | 子木的网站数据分析
“工欲善其事,必先利其器”,随着利用网站数据驱动营销和运营近几年在实践中给群多网站带来的高ROI产出,选用一款优秀的网站数据分析工具对企业的在线营销显得十分重要,而在实践中有经济能力的公司可以选用成熟、稳定的商业分析工具来做网站数据分析,偶然机会接触到一款来自德国的欧洲市场份额第一的web analytics工具-其中的一些重要功能和体验值得介绍下.
Web trekk特色功能
一、不抽样的全量数据和高实时性
全量数据:区别于免费的google analytics的抽样数据,web trekk提供原始的完全不抽样的全量数据,这对电子商务网站分析全部用户数据非常重要,并且全部的原始数据均可以导入到网站住的其他BI等系统中更好分析网站数据和其他数据的结合。
实时性高:Web trekk基于成熟的存储、计算和在国内本地部署的服务器机制,从收集用户网站数据到展现报告仅仅需要秒级别,这对国内市场中那些关注瞬息万变的网站数据的用户来说是一大福利
二、从群体到个体的报告一应俱全
Web trekk不仅仅可以提供全部和任意细分的用户群体报告,对于电商网站来说还可以提供单个用户和单个订单的的数据,这对于某些时候要用到的定性分析至关重要,很多时候网站分析报告只是告诉我们群体已经发生了什么,但是缺乏细致的个体报告做定性和定量分析
三、针对电商网站的定制报告和功能
电商购物车放弃用户智能挽回机制
无论是免费的国内的网站分析工具还是google analytics对于国内电商网站的订单和购物车等环节的监控支持性都不够高,而web trekk的电商模块完全为电商定制,提供了例如购物车、订单的详细分析。
据国内公司的监控数据,从购物车到最后完成订单的购物车放弃率高达70%,而电商的平均转化率也不超过5%,于是完善和驱动购物车转化率至关重要。Webtrekk智能识别购物车未完成的用户,基于购物车的丢弃行为做邮件再营销机制
本部分的原理是web trekk智能将用户的访问cookie id和电商网站的登录顾客id做绑定,在用户未登录情况也能识别顾客id,通过顾客ID反查邮件信息来智能帮助电商网站挽回邮件发送机制,全程智能识别。
购物车放弃的细分分析
web trekk还提供购物车放弃的细分分析,用户对购物车放弃用户可以继续做其他维度如商品维度、用户终端设备维度的细分,以便更好分析用户放弃购物的原因如是浏览器兼容性不够,商品品类单价较高或其他。
智能识别电商的交叉销售给电商推荐提供基础数据
电商推荐中的商品关联推荐能够很好做搭配销售,web trekk的电商报告提供商品关联分析报告帮助更好做搭配销售
四、跨屏分析
Web trekk除提供监控pc web网站的方案,同样提供监控安卓和ios移动应用的监控系统,最重要的是web trekk基于登录会员id和其他计算机制,能关联用户的从pc到各种app的行为。帮助识别pc用户 转向app以及app转向pc的数据和报告,同时基于pc和app之间可以做跨渠道的归因模型分析。
五、电视媒体广告分析
Web trekk能够帮助用户智能识别电视媒体对线上营销的效果,对于大的品牌广告主和电商来说,帮忙识别各个渠道的归因效果,更好了解电视媒体的价值。
真正懂商业数据的网站分析工具
Web trekk的产品从设计中就融入企业的商业分析和网站分析思路中,web trekk的dashboard中可以设置目标和kpi,用户可以通过仪表板清晰知道日、每周、每季度和年的目标和kpi完成进度,和大部分BI系统的设计系统非常类似,以目标为导向的分析思路。
代码部署方便、 重视服务和中国市场
代码部署方便
无论是Google analytics推出的Google Tag Manager还是国内的网站分析工具,都在不断降低网站分析代码部署的难度,而adobe的omniture虽然拥有较多功能,但是部署麻烦且无本地服务造成大部分购买omniture的用户也只能使用最简单的功能,工具价值完全没有得到体现。而web trekk无论是pc的流量监控、A/B
test还是点击图、热力图的监控亦或app的数据监控都是非常方便,并且web trekk也提供tag mangment的代码管理器的功能方便部署代码。
重视服务和中国市场
Web trekk公司从产品到运营均有中国本地工作人员长期在国内深入一线用户市场,并且切实提供服务能很好解决商业分析一贯缺乏服务的诟病。
总体来看在目前商业分析工具的市场web trekk的一些功能和设计值得国内用户学习和使用。
本条目发布于。属于分类。作者是。
数据分析不仅仅体现在tag方式监控的前端wa数据和后端交易数据,在基于seo的服务器log日志方面同样可以得到运用,并为提供网站seo优化做出贡献。
在seo的数据分析中传统的工具均提供了流量监控,但普通缺乏log服务器日志层面监控。seo的数据分析中有几项指标特别值得关注。
1、网站页面收录比率查询
以往在搜索引擎用site命令得出的是收录是估算值,后来演变的百度统计、百度站长工具能计算到精准的收录数据。但对于运营特别值得关注的是页面被收录比率而不是总收录页面数。
主要是基于三方面考虑:
一、收录多少不能完全反映seo的好坏、因为本身网站的总页面数很多站长主是不知道,这时候收录数是100,1,000不能说明这个值到底意味站点的seo是否是合格的。
二、页面数目本身是变量。也许读者会问那看页面收录数趋势就好了,但大部分网站的页面数基本在不断变化的,所以即便增加或者减少也不能说明seo的好处,此时页面收录比率变得特别重要。
三、不是所有页面都应该被收录。网站主希望将权重l集中到核心页面,对于不能获取搜索流量 的比如 购物车、支付页面等页面是不希望被收录的。
如何实现?
要实现查询页面收录比率,原理就是模拟一个蜘蛛抓取网站页面,同时已经将抓取的页面和搜索引擎的搜索结果页面做比对,看抓取的数据和搜索引擎结果页面是否匹配。
工具设计如下:
1、从任意一个页面开始抓取(建议取首页或者和网页地图之类页面),
2、利用正则表达式匹配出要被收录的页面类型。
3、设定采样的页面数目。
4、同时列出未被收录的页面,为后续的分析做数据支撑。
2、关键字竞争分析
只有知己知彼才能百战百胜 ,关键字竞争分析是指基于网站主的行业搜索词计算网站主网站在搜索引擎中的排名和得分情况。
实现方式:
a、查询网站关键字排名:用给定关键字去百度自然搜索(排除竞价),如排在第一位的网站给30分,第二位的20分, 第三位 15 以此类推,第17位给1分.
b、对排名前17网站的得分进行汇总排序
卖个关子留两个问题:
1、为什么第一名给30分、第二名给20分,第三位给15分?
2、另外按照现在的排名给分的一个待优化算法的地方是什么?
本条目发布于。属于分类。作者是。
网站数据分析也称为web analytics 按照维基百科的定义为:Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.意为通过收集、度量和分析互联网数据进而理解网站业务和优化网站的一种方法. 是一门比较新的互联网分支,最近几年得到重大发展。2012年3月后WAA改名为Digital Analytics Association.
尽管如此,传统的网站分析还面临以下各种挑战:
1、cookie机制对于确定唯一用户的挑战
挑战:基于cookie机制和移动互联网发展导致用户多终端、多浏览器的访问对确定真正唯一用户的挑战?
解决方案:在部分电商和登陆网站可以利用customer id(注册id)和cookie id的关联关系去定义唯一用户(虽然仍然存在偏差,账号公用导致customer id大量对应不相关cookie id)。
2、offline数据如何更好和onine数据的结合
挑战:传统线下和互联网融合更加紧密,传统公司开始有大量online数据,而过去的online公司也会同样产生更多offline数据,如何更好标准化和对接数据成为挑战。
解决方案:至少需要小型BI系统,建议将前端WA数据输出到bi系统。
3、跨渠道的Attribution model
挑战:转化渠道的关系和贡献度如何确定
跨渠道分为多种
a、 多个click广告: 渠道之前的关系更加密切,用户在转化和形成品牌认知前经常跨越多个媒介 。
first click last cick or average 都是计算模型。
b、线上impression广告对渠道的贡献:传统的web analytics是基于click点击行为的数据,对于impression广告的贡献和参与的分配将是web analytics面临的另外一大挑战
c、offline marketing对于online marketing的转化促进作用的贡献程度如何确定?
如: 线下品牌广告对线上用户搜索和交易等行为起的引导促进作用如何量化,线下分地域投放和线上基于地域的效果监控、二维码、优惠券的使用、短地址的采用能部分解决线下往线上转移的监控。
d、营销的后续影响对于转化的贡献度如何定义?
张栋在微博曾经说的案例就是这样的情形:”【一个点击到底多少钱?之二】一个电商 SEM 每天花 1000 元, 每天总共 3500 个点击:SEM 带来 1500 个点击 + SEO 自然流量 带来 2000 个点击;这个电商停止 SEM 投放,每天 SEO 自然流量带来 100 个点击,问:一个 SEM 点击到底多少钱?”
解决方案:总体来说,需要完整的Attribution model机制和更加完善的监控机制,比如展现广告的监控,同时还需要case by case的分析(基于每次营销的)。
4、数据越来越多,如何收集有用的数据。
挑战:不计算后端的数据,单纯一个网站的前端数据的维度也变得越来越多
哪些数据是最终支持通用kpi,在异常个案中如何收集证明案例的数据
解决方案:从业务和商业目标出发的去收集数据,在异常情况需要case by case.
5、网站分析师的技能要求
挑战:网站分析师在技巧技术娴熟的情况下,更多的是凭借敏锐的商业嗅觉去收集数据,分析数据,对商业的理解可以更好发挥网站分析的作用。
网站kpi有很多:转化率、
新会员注册、老会员回访、顾客数增多、品牌和口碑曝光度等等,网站分析师必须更加懂商业,抓住主线。例如在网站分析中常见的有长期商业目标和短期商业目标。分析师如果不清晰目标往往得出对商业无利的结论,在电商中毛利率和订单金额是长期追逐目标,但在短期阻击对手活动中这个明显就不是短期指标,比如京东要做图书的早期,一定是优先看用户数和市场规模,打击毛利率。
解决方案:对分析师的要求越来越高,懂统计、计算机、商业的分析师将是各个公司追逐的目标。
6、法律和政策
挑战: 基于网络立法对用户隐私的保护,cookie可能会被block,各个浏览器和操作系统对tracking的态度将导致跟踪cookie的数据完整性。
解决方案:几乎无方案,国内的用户隐私政策相对宽松,需要行业自律。
7、如何利用网站数据做精准营销
挑战:从vistor到customer的数据对接:如在常见电商购物车放弃率达到70%,从前端监控到用户登陆流程需要完整化,才可以采用精准营销唤醒购物车放弃用户。
解决方案:网站分析系统需要更多的自定义参数和api接口去关联用户更多的非浏览行为和离开网站后的后续行为。
8、WA工具的pm和网站分析师对网站分析的理解程度
挑战:工具和人谁先行?
设计wa工具的pm具有前瞻性带来的好处是更多的分析师群体可以更好使用工具,但工具的使用门槛大幅提高。
而当分析师更有前瞻性,瓶颈便在分析工具上,但不可能每个分析师都要求自主按自己想法去设计工具。
解决方案:wa工具pm需要精通wa,提供可供选择的版本和功能供普通用户和分析师使用。
9 、传统wa的clickstream数据如何从页面走向位置
挑战:传统的wa局限在页面上下游关系,需要收集页面位置和区块点击的显性反馈数据作用到个性化推荐等系统中,需要企业有强力的部署和实施能力,典型案例:amazon的url架构,页面不同位置和区域url均被埋点,针对用户和搜索引擎两套url。
解决方案:
判断uesr-agent,前端用一个js脚本控制,当用户出发区块的链接时,就会在url末尾自动加上标签。
本条目发布于。属于分类。作者是。
百度相关搜索和搜索提示框比较
搜索框提示词
笔记本电脑
笔记本电脑推荐
笔记本电脑报价大全
笔记本电脑排名
笔记本电脑报价
笔记本电池保养
笔记本电池
笔记本无线上网
笔记本论坛
笔记本显卡
相关搜索词
笔记本电脑
联想笔记本
苹果笔记本
华硕笔记本
索尼笔记本
三星笔记本
笔记本电脑价格
恋恋笔记本
戴尔笔记本
惠普笔记本
总搜索量:
平均搜索量:
百度指数推荐词
联想笔记本
笔记本电脑
华硕笔记本
索尼笔记本
戴尔笔记本
惠普笔记本
东芝笔记本
笔记本电脑报价
三星笔记本
笔记本报价
总搜索量:
平均搜索量:
本条目发布于。属于分类。作者是。
周日参加了淘宝组织的ResysChina…拿到一些好玩的数据。
一 明星的影响力谁最大?
淘宝网做了所有明星演唱会前一个月的门票销售额数据统计。 结果是上张学友&王菲&周杰伦。
为什么明星喜欢开演唱会?
张学友和王菲两个人的演唱会门票收入基本等于整个唱片市场销量
谁在喜欢王菲?
喜欢王菲的老男人和年轻姑娘很多,预计是在王菲演唱会是一群老男人和小萝莉在摇旗呐喊。
你大龄了吗?
淘宝根据用户购买喜糖的数据统计有40%的男性是30岁后结婚的
五 中国商人对于市场敏感性有多强?
PS:(ipad2 北京时间3月3日发布
中间一段是春节)
六 谁在说淘宝是女人的专利?
网购时代来了吗?
19.5亿这一数据已超过北京、上海、广州国内三个一线城市的单日社会消费品零售总额。
八 谁是真正的浪漫之都?
本条目发布于。属于分类。作者是。
Amazon根据用户来源的推荐系统
Amazon的在推荐系统方面做了非常细致的工作,以往关于amazon的协同过滤等算法的文章也比较多,本文要说明的amazon根据用户从搜索引擎的搜索词而给出推荐页面的体系。
这个体系分为两部分:
Amazon根据用户来源来判断是否给出相关搜索的推荐的页面:
如:在google里面 搜索 这本书
点击进入amazon的页面
所看到的图是这样的
当把通过google来的这本书的url 通过粘贴到浏览器打开我们看到的页面是
一样的url但是是不一样的页面,显然amazon是判断用户来源,当用户通过搜索引擎来的用户给他一个推荐页面,
在js里面判断了referer信息
PS:(amazon定义了path name为searh。对这个问题进行发散思维,也许通过referer判断出其它path,亚马逊会给出另外一套体系的页面,比如针对联盟、针对Facebook的用户。)
看不清图的用户点击右键或者通过javascript:alert(document.referrer);命令看,
推荐的商品是关键字在amazon站内,为了证明这个再贴一张图:
PS:Amazon的站内搜索系统同样强大,第三条的搜索结果主要也是根据推荐系统关联起来的,比如你搜 “里程碑” 可能给你搜索结果包含和这个手机产品关系很接近的“me600手机”
Amazon通过判断keywords在站内搜索结果数目来决定是否给出相关搜索的推荐页面,当站内的搜索结果数目大于1的时候给出相关搜索的推荐,当站内搜索结果唯一缺点时候无相关搜索推荐页面。
当我们通过一个长尾关键字
来进行搜索时候
无论是通过搜索引擎还是通过自己来源,都没有相关搜索的推荐页面。
的搜索结果为1.
总结:amazon这套系统的逻辑大致是这样,当用户通过搜索引擎来页面的时候,一般认为搜索引擎的用户的搜词不够精准,于是amazon扮演起一个搜索精准化的功能,将用户的搜索结果精准(给出关键词的站内搜索页面推荐)。
当用户搜索的关键字比较精准(根据站内搜索结果数目判断为1条结果),认为是精准搜索,不给出相关搜索推荐页面。
本条目发布于。属于分类。作者是。
当当和卓越亚马逊图书网站谁在搜索引擎中的优化表现更好?抽样百度搜索风云榜的热门五十本图书做了个统计
查询范围:1-10页 |
0:表示未查询到
-1:表示未选择或数据获取错误
当当dangdang.com
亚马逊amazon.cn
关键字/搜索引擎
百度自然排名
关键字/搜索引擎
百度自然排名
何以笙箫默
悲伤逆流成河
微微一笑很倾城
格列佛游记
最后一颗子弹留给我
明朝那些事儿
明朝那些事儿
生命中不能承受之轻
会有天使替我爱你
天使街23号
天使街23号
中国远征军
何以笙箫默
情人 杜拉斯
梦里花落知多少
平凡的世界
中国远征军
平凡的世界
哈利波特与魔法石
会有天使替我爱你
生命中不能承受之轻
悲伤逆流成河
梦里花落知多少
格列佛游记
哈利波特与魔法石
最后一颗子弹留给我
微微一笑很倾城
情人 杜拉斯
哈利波特与凤凰社
哈利波特与凤凰社
搜索引擎平均排名
搜索引擎平均排名
本条目发布于。属于分类。作者是。
子木在别处
网站数据分析}

我要回帖

更多关于 数据分析包括哪些内容 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信