网站日志分析方法系列一:聚焦式分析

作者:王雪莲 来源:aliued 时间:2011-01-06 12:30:00 

在网页运营改版过程中,经常有设计师或者运营同事有这样的疑问:我的页面到底产生了多大价值?这个页面引导的用户接下来访问了多少商品的页面?有没有产生交易?有没有到我想让用户去的那些页面?

如果使用数据库查询,固然可以得到一些结果,但查询过程过于复杂,数据量大的网站查询耗时太长,很难灵活应用到普通页面。本文提出一种相对简单的分析方法可以解决这个问题。


每个用户在网站上的访问轨迹在网站日志或者数据库中,都是一串URL,有的只访问了一两步,有的访问了成百上千步,如何在如此复杂繁多的数据中找到用户在访问某个页面(例如服装首页)之前或者之后n步,有多少人访问过特定页面(例如交易页面)?

先抛开这个问题,我们想象这样一个场景:在一个大会场中,熟人坐在某个座位上,如果我们知道他们的位置,我们的眼睛很容易聚焦到这几个位置,自动忽略其他座位的人,请参看图1。同样,人们在观察周围事物时,经常会把精力聚焦到自己关心的事物上,下意识忽略其他。我们曾经做过这样的实验,我们的报告厅有4个很大的外置式扩音器,分列在两侧。注意不是那种不显眼的内置式,任何人只要稍微留心就会看到。而当我们要求会场的人闭上眼睛回答会场有几个扩音器时,很少有人能给出正确答案,因为大部分人会关心更重要的东西,比如会议内容,提问问题,甚至是如何找个舒适的位子也比扩音器的多少更让人关心。

1

回到我们网站碰到的问题,某个项目的设计师关心的页面并非全部,而只是几个与之页面有关的页面和部分重要的指标页面。因此我们可以去除相关性不大的页面,只保留关心页面,从而缩短用户路径,大大提高计算效率。

另外,我们把索引的思想引入分析过程中,把网页的URL按照一定规则(例如正则表达式)替换成简单字符,把相关性不大的页面统计替换为同一个字符(例如“0”),把一些过渡性的页面替换成某个字符(例如”p”),如此以来,每个用户的访问路径就可以表示为一个字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用户的访问路径全为相关性不大的页面,此时,路径为”0,0,0,0,0,0,0,0,0,0,0,0,0,0”,这表示用户并未访问到目标页面,如果不需要计算用户比例或用户分类,那么这样的记录我们可以删除掉。

如果需要保留其他的用户信息,例如cookieid,登录名,访问时间等信息,这个字符串会更加复杂些。如果我们研究目的比较简单,还可以进一步处理,如果不需要对步长信息进行分析,我们可以去掉相邻重复的一些数据,把上式简化为” a,c,0,a,p,c,0,c,t,0”。

这个过程请参看图2中的①和②,由此我们可以得到多个用户的路径的字符串形式的文件。

图2

得到这个聚焦式用户路径文件后,我们就可以对这个字符串文件进行分析了。例如,我们需要计算a页面后有多少个c页面,需要能忽略中间的翻页页面(p页面)。在上例中的这个用户的字符串中,就是1个用户,2次c页面。如果在访问了其他页面之后再访问c页面的行为也可计算入内的话,那就是1个用户,3次c页面。

接下来就是分析的样本量问题。一般分析过程中会讲究“多而全”,但数据量大到一定级别,分析1/10甚至1/100人群与分析全样本所得到的结果相差无几,花费很多资源去提升一点精确度是一件很得不偿失的事情。因此可以酌情分析小样本量,节省分析成本。

由于目标页面业务的独特性,每次需要分析的方式也很个性化。路径查询器可以灵活应对各种查询。例如,我们需要计算a后面有t的人次,a后面紧跟着c的人次,行为符合某种模式的用户数有多少等等。需要统计的模式在分析算法配置文件(图2中的③)中进行配置,查询器会计算并导出最终结果。

另外,查询器还支持分类信息查询,根据用户路径文件的配置信息,对每种分类的人群分别查询,或者导出符合某种模式的人群Cookieid,用户名等,与其他数据存储媒介联接,取得这部分人群的其他信息,从而进行综合分析。

这种方法优点在于比较灵活,如果网站的URL规则比较规范,在配置过程中可以多采用正则表达式,从而可以发现更多有趣的现象。

标签:日志,分析,设计师
0
投稿

猜你喜欢

  • 百度凤鸣计划:BTOC商城网站实施战略分析

    2009-10-17 21:03:00
  • SEO的技术含量

    2007-10-09 12:48:00
  • DeDeCMS默认首页及WWW域的301跳转

    2011-09-28 17:04:57
  • “网络招聘时代”招聘网站为啥叫好不叫座呢

    2009-10-14 10:32:00
  • QQ 抄出来的整合文化

    2008-02-27 13:00:00
  • 网络文化热点排行榜出炉 贾君鹏开心网上榜

    2009-10-13 13:34:00
  • 如何配置安全的服务器系统

    2010-03-24 19:18:00
  • 调整Discuz 帖内图片最大宽度

    2009-11-02 10:36:00
  • 士兵突击,两种不同的站长人生

    2007-11-27 19:10:00
  • 分词与索引库

    2009-09-22 15:17:00
  • 对付ARP欺骗攻击16a.us病毒的解决方案

    2007-08-06 17:48:00
  • 3389终端服务器超出连接数的解决办法

    2009-11-10 14:31:00
  • 按照建站不同阶段 分享我建站三年的经验

    2009-02-04 10:55:00
  • 酷我音乐盒均衡器 个性音效DIY

    2009-10-28 12:04:00
  • windows2003服务器安全设置完全教程

    2010-05-11 17:51:00
  • 如何用IIS建立高安全性Web服务器

    2009-01-14 16:58:00
  • 地方论坛推广运营经验分享

    2009-02-07 17:28:00
  • 邮件系统的选型与架构专题(上篇)

    2010-03-12 18:31:00
  • Imail常见问题解答

    2007-03-27 14:21:00
  • Twitter官方开测Retweet功能 或明年推广

    2009-11-09 08:47:00
  • asp之家 网站运营 m.aspxhome.com