Google HERAT(GSM)framwork

Google HERAT(& GSM) framwork

@[TOC]

一、简介

  google HEART framwork是2010年google Research team 的三位Kerry Rodden, Hilary Hutchinson, 和 Xin Fu(华银?) 在ACM^1会议上的学术论文。即《Measuring the User Experience on a Large Scale:User-Centered Metrics for Web Applications》 (大规模测量用户体验:以用户为中心的网页应用度量体系)。

  HEART框架来源于google团队内部创建和跟踪以用户为中心的产品度量标准的经验,后来将这些方法放进框架来供其他团队推广应用。

  越来越多的产品和服务被部署在网络上,这对大规模的用户体验衡量提出了新的挑战。非常需要有一个用户中心的指标体系,用以衡量关键目标的达成过程,并推动产品的决策。在这份简报中我们可以看到Google目前使用的以用户为中心度量的HEART框架,以及作为产品目标映射到的这个指标创建的过程。

  现在已经有很多的度量方法比如《用户体验度量》提到的很多方法,以及网站分析方法[^3]等,从具体到页面细节的度量方法到产品关键指标等。甚至越来越先进易用的度量工具和分析方法。 但是这些方法依然是主要以业务为中心的,而非以用户为中心。 流行的一些分析工具要么是太具体到电子商务相关的分析要么就是太过笼统。

  所以谷歌基于大规模的应用和用户,创建了大规模的以用户为中心的用户体验度量工具,包含衡量用户或消费者的态度、行为和情绪的框架。
  

PULSE

  PULSE [pəls] 是基于商业和技术的产品评估系统,被很多组织和公司广泛应用于跟踪产品的健康状况。PULSE这些指标是指:

P U L S E 中文
Page view 页面访问次数
Uptime 正常运行时间(稳定性)
Latency 延迟
Seven days active user 7天活跃用户数(周活)
Earning 收入

  但是这些指标要么太浅层次,要么和用户体验不直接相关,很难用以评估用户界面的改变对于用户的影响。并且他们也经常很尴尬的互相影响——比如一个特定功能页面的PV上升可能是由于这个功能真的很流行,或者是由于界面让用户迷惑,而不得不在周围乱点想退出去。带来短时期的价值的改进,有可能造成糟糕的用户体验,从而在更长时期造成用户的流失[^4]。

  假如在特定的时间段,周活通常用作用户体验的度量。 它测量了用户群的总体容量,但无法测量用户对于产品的忠诚度,例如七天内的访问次数。也不区分新旧用户(现在的技术已经可以加以区分,但在一些场景内传统度量方法仍会捉襟见肘)。最坏的情况下每周都可能获得100%的留存,而且还可能超过100%继续增长。

二、框架介绍

  在网站设计过程中, 您可以评估和分析产品或服务的可用性, 并通过 A/B 测试进行评估。但重要的是选择和使用正确的指标和有效的方法。这些方法的指标度量不仅代表用户体验的质量, 而且还表明项目或产品的总体目标。

google HEART framwork 包含两部分:

1、HEART

  根据google研究团队在PULSE中看到的优缺点,作为对PULSE补充,同时又能兼顾用户体验度量、质量和提供可行性数据,创造了HEART 框架:

英语单词经常是多义的,且多义与中文的多义不是对应关系,经常有单个词直译导致曲解的情况,为了方便理解,把单词词义也列在后面。

HEART 翻译 词义
Happiness 愉悦感 愉悦 (幸福、快乐)
Engagement 参与度 参与 (订婚、约定、交战)
Adoption 接受度 接受 (采用、采纳、收养、选择)
Retention 留存率 留存 (保留、保持、维持)
Task success 任务完成度 任务 成功(完成)

  在实际项目中,并不是一定要应用所有的维度。 而是根据项目的环境和属性,结合框架来确定如何进行用户体验的衡量,从而有效改进产品的用户体验完善合理的产品闭环。

  比如用户是要将使用你的产品作为必要条件,这种环境下参与度就没什么意义了,可以去考虑其他的指标,在这个案例中可以考虑选择愉悦感或者任务完成度。比如12306…… 改善一下任务完成度(任务完成效果和效率)要认真考虑一下了!

1.1、愉悦感

  衡量用户或消费者的态度、行为和情绪的属性。这些因素有助于了解用户或消费者对产品或系统是否满意。

  愉悦感是设计用户体验中的主观感受问题,像满意度、视觉感受、向别人推荐的意愿、感知易用性[^2]。可以通过好好设计问卷长时间监控相同的指标来看设计修改后带来的变化。

举个例子:

  google原来有一个个性化主页 iGoogle。igoogle团队通过每周跟踪一系列的产品调研和指标,以了解新功能带来的变化和影响。在进行了一次重大重新设计后,用户满意度指标有了一些下降(体现在满意度调查指标上)。但是随着时间推移,满意度指标慢慢恢复。这表明了满意度降低的原因可能是“变化性厌恶(婴儿鸭综合征)[^4]”,一旦用户习惯了新的设计,他们就会喜欢上它,有了这些信息,让团队在创新设计上充满信心。

  例子中通过NPS调查的方式表明:变化可能会影响愉悦感,而在变化之后对愉悦感的初期下降并不一定会产生长期影响。和其他所有度量一样,短期快照式的度量结果,不足以支撑决策。长期观察指标才能为项目决策提供更好的指导。

  愉悦度是用户体验中最重要的用户感受,“用的很爽”“很好看,很好用”“感觉很流畅”“很不错,我会推荐给身边的好友”等等都是产品或者服务的愉悦度好的表现。愉悦度可以从四方面衡量,包括可用性(需求满足甚至超越)、易用性、视觉感受、向别人推荐的意愿。具体指标如下:

  • 可用性

    可用性指的是产品满足用户需求的程度。很多产品经理做产品,往往很关注产品原型设计、交互设计和视觉设计,但不会花很多时间在研究用户需求上。360公司的创始人周鸿祎先生常常提到,有的产品不了解刚需,解决的不是痛点,产品经常面临的最大的问题是用户根本不需要这个东西,这种产品解决的需求其实都是“伪需求”。

    研究“可用性”有两类方法:

    • 定性研究方法:一对一用户访谈、焦点小组、可用性测试和现场调查/观察;
    • 定量研究方法方法:问卷调查、眼动仪、产品数据分析、AB Test和基于自然语言处理的数据挖掘。其中,定量研究方法中的产品数据分析、AB Test和基于自然语言处理的数据挖掘属于通过技术手段来实现测量效果,属于大数据范畴。可用性的研究核心是挖掘客户的真正需求,对不同需求进行优先级分类,这方面非常重要。

      BTW:更多的用户研究方法及使用场景等内容,参见NNgroup的 UX Research Cheat Sheet

  • 易用性。

    易用性指的是产品对用户来说意味着易于学习和使用、减轻记忆负担、使用的满意程度等。产品易用性好,很可能是因为产品功能少,界面简单;也可能是用户认知成本低等因素。同样的产品,功能,界面和环境都相同,对于不同的用户而言,易用性也是不同的,因为用户的认知能力,知识背景,使用经验等都不同。

    易用性包括三方面:

    • 第一方面,易查找(Easy to discover),即单单凭观察,用户就应知道;
    • 第二方面,易学(Easy to learn),第一次使用,很容易学习上手;
    • 第三方面,易用(Easy to use),使用起来很容易,很简单。

        易用性是非功能性需求,加上易用性不像功能那样有明确的界限。所以,易用性有很多的主观成份或无法直接测量,而必须通过间接测量或观察方式。此外,易用性是针对不同人的,开发和测试人员无法准确知道该软件产品是否对别人同样易用。所以,很多时候易用性测试也没有一个通用性标准。但一般来说,软件产品的易用性测试可分为四部分:

    • 安装易用性测试

    • 功能易用性测试
    • 用户界面易用性测试
    • 用户文档易用性测试。

      而对于移动APP,则一般包括:

    • 安装测试(包括APP升级管理)

    • 功能测试
    • 性能测试(网络连接速度、操作流畅度、WebService性能、容量内存溢出、耗电量低电量等)
    • 安全性测试
    • 兼容性测试(操作系统兼容性、手机兼容性、分辨率兼容性、网络兼容性、与主流第三方软件兼容性等)
    • 用户界面测试等等。
    • 视觉美观度。

        好的视觉设计也能给用户创造出愉悦的产品使用体验,甚至可以掩盖一些产品上的瑕疵。一个产品的精致程度,用户很大程度上都是通过产品的外观来衡量的。良好的视觉体验会让用户觉得我们是在用心做产品,也会增加去深入使用的好感度。让用户觉得“酷”的产品,他在使用的过程当中也就会提升体验度。最基本的视觉传达构成要素是文字、图形、色彩和布局,设计师应当巧妙运用视觉元素进行有效地视觉编排,给用户带来的愉悦的体验。视觉美观度可以通过用户调研评估。

  • 推荐意愿。

    推荐意愿,顾名思义即用户向其他人推荐的程度。产品被用户推荐程度越高,该产品的用户体验越好,产品也会越来越受欢迎。推荐度的评估可以参考净推荐值的评估方法。净推荐值(NPS)研究方法由国际知名咨询公司贝恩咨询客户忠诚度业务的创始人佛瑞德·赖克霍徳(Fred Reichheld)在2003《哈佛大学商业评论》文章“你需要致力于增长的一个数字”的文章中首次提到。该方法通过调查客户问题“您有多大可能向您的朋友或同事推荐我们公司的产品或服务?(0-10分)” 来获得,根据客户的回答分数分成三组:

    • 第一组给公司9分或10分,称之为“推荐者”(promoters);
      他们是对公司产品或服务满意度和忠诚度非常高的客户。
    • 第二组给公司7分或8分,为“被动满意者”(passively satisfied);
      他们对公司产品或服务既无不满意,也无满意的客户,较易被其他竞争者吸引。
    • 第三组给0至6分,是“贬损者”(detractors)。
      他们对公司的产品或服务非常不满意,不仅仅停止购买公司的产品或服务,他们会尽一切可能劝周围的人不要买,同时会转向其他竞争者。

      NPS值即为推荐者所占百分比与贬低者所占百分比的差值。

$$
NPS(净推荐值)=\frac{推荐者(Promoters)}{总样本数}\%-\frac{贬损者(Detractors)}{总样本数}\%
$$
  实证研究表明,NPS分数在NPS的得分值在50%以上被认为是表现不错,得分值在70-80%之间则证明公司拥有一批高忠诚度的好客户(如苹果、Google等互联网公司的NPS超过70%),大部分公司的NPS值在5-10%之间,更差的公司NPS还可能是负值。当然,我们仅了解NPS是不够的,NPS本身不能提供具体的改进意见,我们还需要结合影响满意度的原因深入研究,尤其是对贬损者指标进行深入的满意度研究,挖掘“贬损”背后的原因。

  问卷根据不同的侧重点、目的,也有多种现成可用的工具可以套用,比如 CSAT、NPS、CES、USE、QUIS、CSUQ。更多关于问卷的知识可以自行百度,这里有简单介绍 > 用户满意度调研——从监测到洞察,有兴趣可以看看。

1.2、参与度

  参与度是用户在一个产品中的参与深度,在这个维度上,通常用来作为一段时期内访问的频度、强度或互动的深度的综合。比如单用户每周的访问次数,或者用户每天上传的照片数,这比总量要好——因为总量的增长可能是由更多的用户的产生,而不是更多的使用产生的。

举个例子:

  Gmail团队希望了解用户的参与度,而不是用PULSE的周活(简单的统计上一周有总共有多少用户使用产品)。由于定期检查电子邮件是日常工作中的一部分,所以gmail团队选择的指标是:上周五天或者更多的时间使用gmail的用户占比。从而发现这个指标是对长期留存的强烈预测,因此也用作了风向标。

如果要在常规的活跃用户数指标上加入参与度的成分,最好的办法是定义有效活跃用户。有效活跃用户通常有三种定义方法:

  • 第一种是,每天启动N次(比如2次)以上的活跃用户才为有效活跃用户,因为有些应用开机后就自动打开;
  • 第二种是用户使用一定时间的活跃用户才为有效活跃用户;
  • 第三种是有主动操作行为的活跃用户才为有效活跃用户,比如打开某个特定的页面(比如可以通过页面交互度来针对性的评估活动、专题的参与度等方式)。

1.3、接受度和留存率

  接受度和留存率指标通过特定时期内大量用户的统计(比如,7天的活跃用户数)提供强大的洞察,来定位新用户和老用户的差异问题。接受度监控特定时期内有多少新用户开始使用产品(比如,最近7天内新创建的账号),而留存率则监控特定时期内有多少用户在下一个时期内仍然存在(比如,某一周的7天活跃用户在3个月后仍然在7天活跃用户中)。

  接受度和留存率对新产品和新功能或正在进行重新设计、重构的产品特别有用;对于更成熟的产品, 往往会随着时间的推移而稳定下来, 除了季节性变化(季节变化敏感的业务,比如游泳)或外部事件(市场活动、宣传、政策等)。

举个例子:

  例如, 在2008年9月股市崩盘期间, 谷歌金融的七天活跃用户中都出现了激增。然而, 这些指标并没有表明激增是否是由对危机感兴趣的新用户驱动的, 还是现有用户对其投资进行了恐慌性检查。如果不知道是谁在进行更多访问, 就很难知道是否需要针对这些反应调整网站。我们研究了接受度和留存率, 以区分这些用户类型, 并做出正确的决策。

  接受度监控特定时期内有多少新用户开始“真正”使用产品。顾名思义,该指标需要定义“时间”和“使用”。“时间”即统计周期,可以为一天、七天或一个月;“使用”则为体现用户接受产品的使用行为,比如到达某个特定的页面或者完成某种互动、注册成为会员甚至是付费等。“使用”最好是定义产品的核心使用行为,并对核心使用行为进行监控。

  产品核心行为(核心操作)是了解产品接受度很重要的工作之一。比如,对于互联网社交产品来说,核心行为之一是上传照片,因为看朋友发的照片是最有效的了解朋友的动态,如果用户都不上传照片,大家就很难快速的了解朋友的动态,导致社交产品的粘性下降。因此,对于社交产品来说,定义新上传照片用户是衡量这个产品接受度的一个重要指标。新上传照片用户数即在特定统计周期内,第一次成功上传照片的用户。

  而对于需要付费的产品来说,首次付费的用户的监控也显得尤为重要,首次付费用户数是衡量付费产品接受度的重要指标。付费产品经理还可以根据付费产品的实际情况定义更严格,比如累计付费达到特定金额的用户才被认为接受该付费产品,进而可以监控累计付费特定金额以上的用户数量。

1.4、任务完成度

  任务完成率维度包括一些传统的用户体验行为指标,比如效率(如完成任务的时间),效果(比如任务完成的百分比)以及错误率。

  您可能希望检查在一些特定任务上花费的时间 (进程是否可以改进?), 或者在任务开始后成功完成的百分比 (例如, 结帐过程或注册过程)。

举个例子:

Google 地图使用了两种不同类型的搜索框

  1. 两个用于进行本地搜索的输入框, 用户可以分别输入 “什么” 和 “何处” (例如 [比萨][纽约市])

  2. 和一个处理各种搜索的单个搜索框 (包括本地搜索, 如 [比萨纽约], 或 [纽约市] 后面跟着 [比萨])。

    该小组认为, 单个输入框方法最简单, 效率最高, 因此, 在 A/B 测试中, 他们尝试了一个只提供单个输入框的版本。他们比较了两个版本中的错误率, 发现在单个输入框版本条件下的用户能够成功地调整他们的搜索策略。这样有了测试保证,团队就可以做决定去掉所有用户的双输入框操作方式。

任务完成度包括三方面非常基础的用户体验行为指标:

  1. 效果,核心指标为任务完成率。
    完成率是将成功完成任务的用户数除以尝试任务的用户总数得到的结果。比如,100名用户中,有70名用户成功完成了任务,那么完成率是70%。
  2. 效率,核心指标为任务时间,指用户成功完成一个预先设置的任务场景的时间总和。
    有三种测量任务时间的方法:
    • 第一种是,用户成功完成任务的时间;
    • 第二种是,从开始到用户放弃或者未正确完成任务的时间;
    • 第三种是,用户花费在一个任务上的总持续时间。
  3. 错误,核心指标为发生错误的数量。
    错误数则是指用户在尝试任务时产生的任何过失、错误或疏忽。出错数可以从0到无穷大,但在用户体验测试中,一个任务的出错数很少超过20个。集中出错的原因和场景是改善用户体验的重要数据依据,需要重点研究。

2、GSM 目标、信号、指标

  不管以用户为中心的衡量标准是怎样的, 除非它明确地涉及一个目标, 而且可以用来跟踪实现这一目标的进展, 否则都是白搭。Google提供了一个简单的流程来完成指标的设定,通过阐明产品或者功能的目标,然后定义达成的信号,最终建立特定的指标的监控方式。GSM为经,HEART为维。

实例

GOAL 目标 SIGNALS 信号 METRICS 指标
愉悦度 让用户觉得网站是独特的 满意度调查 - 满意度
- 感知易用性^1
- 推荐净值得分
参与度 让用户不断探索更多内容 分析得出的用户花费大量时间查看的内容 - 每用户每周视频查看数
- 上传数量
- 分享数量
接受度 用户使用网站或应用的情况 分析得出的每日注册量。 - 升级到最新版本的数量
- 新增订阅
- 新用户付费量
留存率 用户持续使用网站或应用的情况 来自访客数据的旧访客数量 - 活跃用户数
- 续订率
- 复购
任务完成率 为用户实现目标 成功达成目标的次数 - 搜索结果成功
- 上传时间
- 资料创建完成

2.1、目标

  第一步是定义产品或功能的目标是什么,特别是在用户体验方面。用户需要完成什么任务?重新设计是试图达成什么?使用HEART框架来提示相关的目标(比如,是吸引新用户更重要,还是鼓励现有用户更积极参与重要?)提示:

  • 不同的团队成员可能对于项目的目标有不同的意见。这个过程提供了一个很好的机会来收集不同的想法并且努力达成共识。
  • 特定项目或功能的成功可能与产品的整体目标不同。
  • 在这个阶段无需太担心是否和如何找到相关的信号或指标。

2.2、信号

  接下来,想想用户的行为或态度如何体现成功或失败。什么行动会表示目标已经达到?什么感受或看法能够联系到成功或失败?在这个阶段你应该思考你的这些信号的数据源可能是什么?比如,基于日志的行为信号,这些相关的行为目前有记录或者能够被记录吗?可以收集态度的信号——能否定期投放问卷吗?日志和问卷时我们最常使用的两个信号源,但还有其它的可能性(比如,让一个评判小组为产品评分)。提示:

  • 选择敏感的&和目标特别相关的信号——他们应该因不相关的原因变化,除非用户体验变好或变糟糕了
  • 有时失败比成功更容易定义(比如,放弃任务、撤销,挫折)

2.3、指标

  最终,想想这些信号是否可以转换为特定的指标,是否可以被方便的持续跟踪。提示:

  • 原始统计数据会随同你的用户基数增长而增长,需要转化为常态;比例、百分率或者每个用户的平均值更有用一些
  • 在确保精度上有很多挑战,基于web日志的指标,如从自动生成的数据中过滤流量(如爬虫、垃圾信息),并且确保所有重要的用户行为都被日志记录(默认情况下可能不会,尤其是在基于AJAX或基于Flash的应用中)
  • 如果需要拿你的项目或产品和其他产品进行对比,你可能需要在这些产品的标准指标中增加监控指标。不论是在持续跟踪你自己(或竞争对手)产品体验的变化,还是在设定设计目标时,使用指标都是至关重要的。

三、总结

  Google已经花费数年时间来解决广泛应用的用户体验的衡量指标体系。HEART框架和目标-信号-指标的过程,已经在Google超过20个产品和项目中进行了应用。不管是数据驱动的还是以用户为中心的产品中,HAERT框架和目标-信号-指标过程都能帮助产品团队来做出决定。我们还发现, 框架和和目标-信号-指标过程对于团队集中探讨中非常有帮助。

  HEART并不是一成不变,精确执行的衡量指标体系。在不同行业、公司、产品维度在落地时还需要根据实际情况而定,在HEART体系下建立小维度的衡量体系,创建符合产品本身的个性化的衡量体系,以便得出更加准确有效的衡量数据,通过数据的变化分析产生行之有效的洞见,达到帮助产品、用户体验做出好的决定的目的。 也便于充分发挥团队协作能力。

四、参考文献

原文下载 [pdf]: 《Measuring the User Experience on a Large Scale:User-Centered Metrics for Web Applications》

参考文献:

Google’s HEART Framework for Measuring UX

Complete Guide to Google’s HEART Framework for Measuring the Quality of UX

How we used the HEART framework to set the right UX goals

Google HEART UX metrics framework

GOOGLE HEART METRICS FRAMEWORK - How to measure the user experience of your product

傅志华:大数据量化用户体验

[^2]: 感知易用性(Perceived ease-of-use,简称PEOU):用户在使用某一特定系统时,认为能为其省事减少用心费神的程度。 引申阅读 技术接收模型
[^3]: 这里发自内心的广告一下,宋星老师的chinawebanalytics,初学者看完 基础必读 对于交互设计师来说受益匪浅
[^4]: 所以,有经验没有经验的网站分析师在这里会有明显差距,有经验的分析师能通过条件、环境等筛选、推导出那些数据是有价值的,那些数据是在当前任务或者场景没有价值的。
[^5]: 婴儿鸭综合征#Baby_duck_syndrome) :用户习惯了以前的设计,对新的产品架构感到不舒服,他们必须找到自己的方式来使用产品。