联合分析的结果验证

作者 刘强、曾步凡

在联合分析被广泛使用的今天,客户经常会问到两个极具挑战性问题:1. 你如何保证联合分析的模型分析结果是准确的?(潜台词:你不会算错了吧!)2. 联合分析的市场模拟结果准确么?为什么联合分析模拟出偏好份额和实际的市场份额差异较大(潜台词:联合分析模拟的偏好份额不准确啊!我如何向我的同事和老板解释?)
这两个问题实际牵涉到了联合分析结果的校验问题(Validation)。今天我们就来谈谈这个尖锐的问题。就模型的校验本身而言,存在两个维度的校验,而且恰好应对上面的两个问题:1. 模型对调研数据自身拟合程度的校验,也称为内部校验(Internal validation)2. 模型对实际的市场销售数据的校验,也称为外部校验(External validation)

本文先来谈谈如何联合分析的内部校验(Internal validation)问题。
通常的联合分析模型的拟合标准是R-square(针对打分评测方式的联合分析)或RLH(Root LikeliHood,针对基于选择的联合分析)。这种拟合是将基于随机任务数据构建的模型的预测结果与消费者随机任务部分的实际评价相比较。可以看到,这种拟合评价标准实际是一种回判。即便拟合程度很高,也只能说明该模型估算的效用值对当前的,用于建模的数据奏效。而更好的校验标准应该是模型估算结果对其他数据(不用于建模的数据)是否能准确预测。更简单地说,我们不能仅仅看模型估算结果对“训练数据(training data)”的预测准确度,更要看模型估算结果对“测试数据(testing data)”的预测准确度。
在联合分析出现的那一天起,研究者就一直在关注联合分析估算结果对非用于建模的数据的拟合优劣程度(内部校验)。内部校验的原理是在随机实验设计里插入一些事先设计好的“固定任务”作为“hold-out”。这些“固定任务”的选择数据并不参与建模分析过程。联合分析的模型估算结果(基于随机设计部分的数据)和这些“hold-out”的信息进行比对,以判断模型估算结果的准确性。
固定任务如何设置:
我们知道,联合分析的问卷一般都比较长,通常CBC仅在随机任务部分就可能需要消费者回答6-20个选择题。如果再增加几道固定任务,可能会加重受访者的负担。因此,有些客户或研究人员往往会倾向于不设置任何固定任务。但是这样做的弊端很明显:一方面,客户和研究人员都无法得知基于随机任务数据估算的结果是否准确(想质疑结果错误的不知道该如何质疑,想证明结果准确的不知道该如何证明);另一方面,如果需要对偏好份额模拟进行调整,不知道该向那个方向调整。
因此,建议大家不论在做何种形式的联合分析时,必须设计一些“固定设计”的题目让消费者回答,以在后期对模型估算结果进行必要的校验和修正。一般来说,至少需要1-2个固定任务;如果属性很多且后期偏好模拟的工作很多,则需要3-5个固定任务。
至于固定任务中的概念产品应该如何设计,这个可以按照调研需要来设置。通常在固定任务中出现的概念产品往往是客户或研究者最关心的一些产品,例如放置市场上实际存在的主流产品(并且价格也定在市场平均售价),或者放置调研最关注的一些概念产品。
以CBC(Choice Based Conjoint)为例,假设每个消费者需要回答8个随机设计的问题(Random task)。如果需要进行内部校验,则需要增加几个(一般1-5个)事先定义好的问题(Fixed task),每个受访者看到的这些“固定的”问题中所出示的概念产品都是一致的。例如,如果我们增加两个“固定任务”,其中第一个固定任务中出示的总是概念产品A/B/C/D,而第二个固定任务中出示的总是概念产品A/C/E/F。固定任务一般插在随机任务中,如果只有两个固定任务,一般可以插在第1个随机任务和第4个随机任务之后。
内部校验流程:
  1.  来自随机设计的受访者选择数据被用于建模分析(Logit model,HB,等等)。
  2. 固定任务是一道(或几道)概念产品固定不变的任务,所有受访者都会回答相同的固定任务。我们可以直接统计所有样本中固定任务里各概念产品的被选择比例。
  3. 偏好模拟(simulation)时将概念产品定为与固定任务中出现的概念产品一致,代入第1步得到的效用值,并计算各概念产品的偏好份额。
  4. 比对2中固定任务里各概念产品的被选择比例和3中的模拟的结果(MAE,MSE,correlation等)。如果结果近似,则认为1的建模得到的结果是有效和准确的;如果结果不近似,我们需要回到第1步,在建模分析环节进行调整(调整自变量的编码方式,模型参数设置,权重等)。
案例分享:
我们来看一个真实的例子。在某项CBC调研中,我设置了一个“固定任务”,即所有受访者都会看到同样的一个选择题:
在进行CBC建模时(使用HB算法),一开始仅考虑估算品牌和价格这两个属性的主效应(而不考虑品牌和价格间的交互效应),其偏好模拟的结果与固定任务里各概念产品的被选择比例差异较大。可以看到“品牌3 @6元”的偏好模拟结果远高于固定任务中的选择比例,相应的,其他两个概念产品的偏好模拟结果明显低于固定任务中的选择比例。MAE(Mean Absolute Error)为9%。
于是我们调整模型估算方式,除了估算品牌和价格的主效应外,还增加估算品牌和价格的交互效应。当把纳入了交互效应的估算结果代入到偏好模拟时,可以发现其结果与固定任务的选择比例非常接近,其MAE只有1%。因此,我们会选择“主效应+交互效应”的效用值估计结果以进行后续所有的偏好模拟工作。
模型调整途径:
当模型估算结果与固定任务结果差异较大时的调整途径有很多。通常的做法包括:
  1. 增加交互效应:一般不宜增加过多交互效应且不宜增加高阶交互效应
  2. 调整自变量编码方式:例如合并(或拆分)属性水平,价格的重编码(piecewise coding,linear coding,part-worth coding)等
  3. 调整产品偏好份额计算时的指数系数参数:计算偏好份额时我们默认的指数参数为1,即某个概念产品(j)在n个备选产品中被选择的概率(偏好份额)为:
这里的u为该概念产品的总效用值
而我们可以在指数的“肩膀”上乘以一个常数k来进行调整,即:
 
联合分析的市场模拟结果与实际收款机销售数据的校验案例:
出于商业保密原因,联合分析的外部验证结果很少被公开发表。其主要原因不是因为联合分析的预测脱离了实际(如果真是那样,联合分析也不会如此流行),而是因为这些验证研究的结果被各个公司或组织保护了起来,这些公司组织也没有任何动机发布这些结果。但是联合分析的研究者还是在其发展过程中有过用真实的商业数据与联合分析结果进行验证的案例。Bryan Orme和Michael Heft曾在1999年发表过一篇相关调研的论文(Predicting Actual Sales with CBC: How Capturing Heterogeneity Improves Results)。该调研将联合分析的结果与实际销售数据进行了比较,并得出了令人满意的结果。
Orme和Heft通过一个严谨的设计来确保联合分析的数据正确地与市场销售数据进行验证。他们选择了在某特定连锁百货商店销售的3个产品品类作为研究地对象。
该调研在这家连锁百货商店的5家连锁店中采用系统抽样的方式访问了600位受访者。由于涉及到3个产品类别,每个受访者依据其最常购买的产品类别被相应分配到其对应的产品类别。他们采用了CBC联合分析的设计,总共3个CBC联合分析问卷,分别对应3个产品类别。出于商业保密原因,Orme和Heft无法公开这家连锁百货商店的名字以及调研涉及到的产品品类及具体品牌。但是我们知道的是这次联合分析的目的是制定价格策略。
样本量分布:类别I:246类别II:205

类别III:149

属性:

属性1:品牌

属性2:不重要的“干扰”属性

属性3:价格(对于不同品牌显示不同价格区间的条件价格)

联合分析题目数量及设置:

每个受访者需要完成15道选择题,每个选择题中包括了若干个概念产品及“都不选择”的选项。“干扰”属性在建模中并没有被使用,只是为了避免消费者猜测到联合分析的目的是定价策略研究。

价格点设置:

每个品牌对应有4个价格点:

价格点1:低于平均价格25%

价格点2:低于平均价格12.5%

价格点3:高于平均价格12.5%

价格点4:高于平均价格25%

为了更贴切地展示商品在货架上的标价情况,价格被近似到最邻近的9美分。

该调研还从这家连锁百货商店的5个分店调取(经过客户授权许可)了一年内的收款机数据,以下是关于这3个产品类别的销售概要:
类别I:$1.29到$2.49价格段的食品。该商品销售地最快,每个商店每周都能卖出大约80件。在过去的52周价格每8周会改变一次。当品牌做促销时,只有很微小的迹象表明该产品产生积存。涉及到3个品牌。类别II:

$4.19到$9.19价格段的产品。该产品销售地最慢,在过去的52周里价格会在8-24周之间改变一次。只有很微小的迹象表明该产品产生积存。涉及到5个品牌。

类别III:

$1.69到$3.89价格段的食品。每个商店每周能卖出大约60件。在大多数时间里价格保持不变,一年里只会选择1-2周的时间为某些品牌做促销。当品牌促销时,销量暂时地急剧地增加(大约6倍的销量),有积存现象。调研涉及到6个品牌。

 
整个比较流程可以通过下图来更好的理解:
Orme和Heft对每个产品类别使用了以下5种不同的CBC的建模分析方法:1. 样本层面主效应逻辑模型(Logit ME:Logit Main-Effect)2. 样本层面主效应+品牌x价格交互效应逻辑模型(Logit BxP:Logit Main-Effect + Brand X Price interaction)

3. 主效应潜类别分析(LC ME: Latent Class Main-Effect)

4. 主效应+品牌x价格交互效应潜类别分析(LC BxP: Latent Class Main-Effect+Brand X Price interaction)

5. 个体层面主效应模型(ICE: Individual-level Choice Estimate)

实际销售和联合分析模拟的销量份额的校验总结可以看下表,表中使用了两个统计量来描述预测的好坏:MAE(平均绝对偏差)和相关性。

ICE(个体层面的效用值估计模型)和LC(Latent class)模型比从整体样本层面估算的逻辑模型预测得更准确。将ICE方法模拟的产品偏好份额和实际收款机销售份额结果比较,并计算相关系数,我们能得到0.973的相关性(图中的45%线代表了完美预测),联合分析的预测结果与真实的销售数据拟合得非常好。 
根据Bryan和Heft的介绍,他们甚至没有对模型进行任何基于内部校验的调整,就达到了这么好的预测效果。尤其需要注意的是,每个产品类别的联合分析样本量仅仅为200左右。
这个验证结果让人印象深刻。惊讶之余,我们来看看为什么Bryan和Heft的验证取得了成功。在我看来,他们成功的关键在于联合分析的样本和与之验证的消费者总体高度同源。首先,用于建模的样本和用于验证的销售数据来自相同的连锁商店,而且抽样时间跨度与实际销售数据时间跨度相同。其次,由于都是对该连锁商店有售的产品品牌,因此消费者对产品的认知度基本一致,且产品的铺货率对消费者来的影响是相同的。最后,由于受访者都去同一家连锁商店购物,他们在很多人口统计学特征(收入,教育程度,居住地点等)也具有较高的相似度。
为什么有时候联合分析的市场模拟的产品偏好份额与产品实际市场份额相差较大
尽管上文中Bryan和Heft的研究结果让人印象深刻,但是很多时候,我们发现联合分析模拟出的产品偏好份额与实际的产品市场份额有一些差异(有时甚至是较大的差异)。有些对联合分析和偏好模拟不甚了解的从业者会对这种差异非常担心,甚至怀疑联合分析的偏好模拟的有效性。为此,很多时候厂商或客户往往会要求在联合分析偏好模拟的基础上进行一定的“校准(Calibration)”,希望其与实际市场份额相匹配。“校准(Calibration)”这个词听起来充满了科学的气息,但是实际的校准过程往往充斥着很多主观因素和大量的尝试及摸索。
到底是什么因素导致了这种差异?从本质上说,联合分析或任何数学模型,都需要建立在一些公理或假设的基础上。如果实际情形和模型的假设相违背,则容易出现模型预测与实际不一致的情形。对于联合分析的偏好模拟,其一般假设为:1. 消费者对产品的认知度(Awareness)是相同的2. 产品的铺货率(Distribution)是等同的

3. 消费者能完全了解产品的信息
4. 产品进入市场并达到成熟期的时间是相同的5. 产品的市场销售力度和营销要素投入(如广告等)是相同的

6. 影响消费者购买选择的主要因素被纳入了联合分析

外部效应的影响
这里的1-5点我们称为“外部效应”(External effect)。在真实的市场环境下,这些外部效应实际上是相差较大的。对于快消品产品而言,铺货率是影响巨大的因素。尽管消费者在联合分析中体现出非常偏爱某个产品,但是这款产品能否在超市或便利店中有售(偏好份额落实到销售份额)则是不一定能保证的,常见的品类如香烟,啤酒(地域性的保护措施导致的不同品牌的铺货率相差巨大)。对于汽车产品而言,产品进入市场并达到成熟期的时间以及认知度影响也不小。很多汽车诊断研究中的联合分析估算的新款车型的偏好份额通常会偏高,因为新款车型完全进入市场的时间相比现有车型肯定是更为缓慢,而且新款车型投放后的一段时间内,消费者对其的认知度肯定低于现有车型。最新的联合分析偏好模拟技术已经能够将产品认知度和铺货率信息纳入考量,从而解决一部分的问题。
产品生产和供给能力的影响
另外一个往往被忽视的因素在于产品的供给能力。联合分析计算的偏好份额是从消费者的需求角度出发的,因为联合分析会展示很多概念产品,消费者可以选择他喜欢的任意概念产品(哪怕实际买不到)。而市场份额的实现(产品真正的售卖出去)不仅仅与需求有关,也与产品的供给有关。如果某个产品品类在市场的需求总量为100个单位,联合分析模拟出的产品A的偏好份额占到了40%(即40个需求单位)。但是假如产品A的实际生产和供给能力只能达到10个单位而竞品的供给能力不存在短缺,那么产品A最终在市场的销售份额占比不会高于10%,因为它的产量无法满足消费者对其的需求量。例如某些手机产品,尽管广告营销铺天盖地,尽管消费者的购买意愿强烈,但是由于产品的产能限制,消费者想买(偏好份额高)而买不到(实际销售份额低),最终其应得的市场份额就会被其他产品瓜分掉。
在苹果和三星的世纪诉讼案中,苹果聘请了两位专家证人计算三星的专利侵权导致的苹果经济损失金额。其中一位专家证人利用联合分析从需求端计算消费者对产品偏好份额,而另一位专家证人则将该偏好份额结合三星和苹果的供给端数据计算实际导致的损失金额。这样综合考虑需求和供给两方的数据,才能提供让法庭信服的论据。关于这场诉讼案中联合分析的具体使用细节,请参看《苹果与三星世纪诉讼中的联合分析》
市场销售数据是否是真实的
在将联合分析估计的产品偏好份额与实际市场销售数据对比时,我们实际上在假设我们手头上的市场销售数据是真实的。但是,的确如此么?
厂商都能掌握自己产品的真实市场销售数据,但掌握竞争对手产品的真实市场数据就不那么简单了。这种真实的销售数据是每个企业的敏感内部信息,一般不会全盘透露。一些市场研究或咨询机构也能提供大量的市场销售数据,但大多也是基于第二手资料的收集和整理,本身也带有一定的误差或错误。除此之外,这些“市场销售数据”收集的时间点,对应的地域以及消费者特征是否与联合分析样本数据的收集时间,地域及消费者特征保持一致呢?在上文成功的案例中,Bryan和Heft严格控制了“市场销售数据”的质量,即第一手的总体人群在相同时间段内商店收款机产品购买记录,其结果才让人信服。
联合分析的外部数据验证是一个过程而非结果
在对比联合分析的结果和市场销售数据时,我们不应局限于强求二者的一致性,而应该从差异中发现问题。联合分析是将消费者置于一个“保温箱”式环境下的产品偏好测量,各种外部效应和供给端都假设处于完美的情形。因此,基于联合分析的偏好模拟展示的是在理想的市场环境下的产品偏好份额。
一方面,联合分析的偏好模拟可以为新产品的开发提供方向,为产品的定价和对竞品的市场策略提供有力依据。另一方面,如果联合分析模拟的份额比真实的市场份额偏差较大,营销人员应该考虑是那些外部效应或供给端导致了问题,从而找到可行的解决方案。
从这些角度看,联合分析的偏好模拟更多的是产品开发和定价的利器,以及现有产品销售状态的管理监控工具,而不仅仅是一个数字模拟机。从业者不能夸大联合分析的作用,但也不宜将联合分析控制不了的外部因素归咎于联合分析本身。我们不能完全依赖数据,而应该从数据中发现问题,找出insigh和solution,超越数据。
参考文献:Bryan K. Orme, Michael A. Heft “Predicting Actual Sales with CBC: How Capturing Heterogeneity Improves Results”,Sawtooth Software Conference proceeding(1999)注:以上文章欢迎转发分享,请注明出处;版权为上海大正市场研究公司所有,未经许可不得用于任何商业用途。

分享到:更多 ()

抢沙发

评论前必须登录!