理论

用python分析消费者行为

python主要使用pandas进行分析, 数据是CDNow网站的用户购买明细。一共有用户ID,购买日期,购买数量,购买金额四个字段。我们通过案例数据完成一份基础的数据分析报告 数据获取可以可以通过百度网盘, https://pan.bai...

联合分析的结果验证

作者 刘强、曾步凡 在联合分析被广泛使用的今天,客户经常会问到两个极具挑战性问题:1. 你如何保证联合分析的模型分析结果是准确的?(潜台词:你不会算错了吧!)2. 联合分析的市场模拟结果准确么?为什么联合分析模拟出偏好份额和实际的市场份额差...

联合分析设计陷阱漫谈(四)

作者 刘强 陷阱4:属性间存在强关联性(排斥性)时禁例的不当设置 这种陷阱我认为属于好心办坏事的陷阱,尽管是好心,后果却是很严重的。我们来看一个简单的例子,假设我们需要购买电脑,电脑产品的属性设置如下(为了说明必要禁例不当设置的危害,这里我...

联合分析设计陷阱漫谈(三)

作者 刘强 陷阱3:不该添加禁例却添加了禁例 很多从业者在理解联合分析时有一个思维误区,他们认为在联合分析中展示给消费者的产品必须是真实的,越逼真越好,越接近当前市场上的真实产品越好。因此,如果实验设计产生了当前市场上不存在的概念产品,他们...

联合分析设计陷阱漫谈(二)

作者 刘强 陷阱2:什么样的产品特征可以作为联合分析中的属性?属性水平应该如何定义? 先讲一个大的原则,只有那些容易被消费者理解和正确感知到的产品特征,才能作为联合分析中的属性。例如:品牌:Dell,HP,Lenovo,Apple,Asus...

联合分析设计陷阱漫谈(一)

今天我们开启一个新系列,来谈谈联合分析实验设计的陷阱。 我们在之前的系列里对联合分析有过简单介绍,其基本思想无非是把产品的诸多特征随机组合在一起,产生一些概念产品让消费者评估。然后根据消费者对这些概念产品的喜好程度(评估结果),反过来估算这...

数据科学家应当了解的五个统计基本概念

from https://yq.aliyun.com/articles/658159 从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动...

CBC数据分析—Logit模型

作者 刘强、曾步凡  在这个系列文章里,我们曾介绍过使用简单的回归来分析联合分析的数据。但是随着产品的复杂程度的增加,这种方式就不太适用了。一方面是当产品的属性和水平较多时,每个消费者需要评估的概念产品数量变得更多,即便通过试验设计的方式,...

联合分析之CBC模型

作为付费的企业级产品,随着开放平台应用的增多,我们需要考虑不同市场对不同应用或组合的偏好,以及组合价格对企业用户的吸引力。借着“企业QQ平台应用价格研究”,梳理了一下常用的价格研究方法。如图1所示,针对产品阶段与投入资源的差异性,通常可以将...

马尔科夫不等式与切比雪夫不等式

马尔科夫不等式 切比雪夫不等式 切比雪夫不等式就是刻画 事物偏离它本质的偏离程度 的大小 的概率。 在随机变量分布未知的情况下,我们只知道均值和方差,切比雪夫不等式给出了x落入均值为中心的ε邻域概率的概率范围。 参考: https://ww...

数据分析常用的100个指标和术语

版权声明:本文为CSDN博主「小晓酱手记」的原创文章,遵循 CC 4.0 BY 版权协议,转载请附上原文出处链接及本声明。 原文:https://blog.csdn.net/sinat_26811377/article/details/10...

集成学习之AdaBoost

from https://blog.csdn.net/sunbobosun56801/article/details/77891470 当做出重要决定时,大家可能会考虑吸取多个专家而不只是一个人的意见,机器学习也是如此,这就是集成学习的基本...

使用开源软件快速搭建数据分析平台

来自 https://my.oschina.net/taogang/blog/3039572 架构图: 为了构建一个最简单的开箱即用的数据分析平台,我使用了如下的技术栈: 服务器端: sanic 基于Python3的web服务器 panda...

SPSS—非线性回归(模型表达式)案例解析

from https://www.cnblogs.com/qiernonstop/p/3720486.html 非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何...

聚类分析 – K-means – Python代码实现

算法简介 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法过程如下: 1)从N个文档随...