-
DAX在使用上可以分为两大类,一类以DAX计算为核心,另一类以DAX查询为核心,本文主要介绍的就是DAX 查询。而DAX Studio,其主要就是用于DAX代码的编辑和查询。
下面将说明如何在PowerBI Desktop下使用DAX Studio进行查询。可登录DAX官网:axstudio. […] -
-
信息论中的熵对于离散的随机变量是比较直观的,也就是信息量的数学期望,具体来说,就是:
(1)但是对于连续的随机变量,熵的概念就要复杂得多,这篇文章来探讨一下。
现实世界中有很多连续随机变量的例子,比如每天12:00pm的温度,或者17岁男子的身高,等等。连续随机变量的特点在于它的值域是连续的(也就是实数R,或者说有无限多的可能的值)。对于连续随机变量,取每一个具体的值的概率都是无限接近无穷小,而概率只对 […]
-
前言
信息时代的高速发展让我们得以使用手机、电脑等设备轻松从网络上获取信息。但是,这似乎也是一把双刃剑,我们在获取到众多信息的同时,又可能没有太多时间去一一阅读它们,以至于“收藏从未停止,学习从未开始”的现象屡见不鲜。
这篇文章估计以后也会在收藏夹里面吃灰吧!
为了能够高效地处理巨大的文档信息,我在学习的过程中,接触到了 LDA 主题提取这个方法。经过学习,发现它特别有意思,它的主要功能是能将众多文档进行主题分 […]
-
0、原理
LDA文档主题生成模型,也称三层贝叶斯概率模型,包含词、主题和文档三层结构。gensim流程如图所示:整体过程就是:首先拿到文档集合,使用分词工具进行分词,得到词组序列;第二步为每个词语分配ID,既corpora.Dictionary;分配好ID后,整理出各个词语的词频,使用“词ID:词频”的形式形成稀疏向量,使用LDA模型进行训练。
1、代码实现
from […] -
生存分析的统计方法可以回答以下商业问题:
一个特定的客户会在公司留存多长时间?换句话说,在多长时间之后,这个客户将会流失?
运行一年后,某台机器还能使用多久?
不同营销渠道的相对留存率是多少?
确诊后,患者存活的可能性有多大?本文的目的是建立概念,这样就可以在不同的商业环境中应用这种技术。
目录
引 […]
-
第一部分
1.数据基本情况探索
2.数据来源及预处理
3.数据相关性探索
第二部分
1.Cox风险比例模型建模
2. Cox风险比例模型效果评估
3.Cox风险比例模型预测流失用户
4.改善运营策略,防止用户流失
生存分析(survivalanalysi […]
-
概率图模型(Probabilistic Graphical Models) – 贝叶斯网络(Bayes Nets)
你可以大概形象的理解概率图模型的2种分类:
1.贝叶斯网络 — 结点与结点之间是以有向箭头相连接,代表是这个结点会影响下一个结点
2. 马尔可夫网络 — 结点与结点之间是以无向箭头相连接,代表是结点 […] -
用第三方包画图
一.工具:graphviz下载页面提示说:这个包依赖于grid,graph,Rgraphviz,得先下载它们再下graphviz,grid好像是系统自带的,下后面两个就可以了
下载步骤:
a.打开R控制台:输入以下代码安装graph:
if (!requireNamespace(“BiocManager”, quietly = TRUE))
install.packages(“Bio […] -
在图的基础上表示概率分布的模型我们称之为概率图模型;而且在图中,我们用结点来表示随机变量,结点之间的边表示结点的概率依赖关系。本文我们介绍概率图模型中一个最基础的模型 —- 贝叶斯网络。
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl […] -
1、xlwings是什么
2、xlwings安装更新与卸载
3、xlwings详细使用
4、案例分享
xlwings是什么
在日常生活中我们或多或少的都会跟Excel打交道,比如做销售统计,人力的考勤,学生的考试成绩等等,甚至在某些领域会涉及到批量操作Excel表格,那对于非程序员来说,可能使用Excel中的函数,但是在某种场景下这些又是不好使的,只能熬夜加班啦!但是对于程序员来说,可能就是分分钟的事, […] -
Excel在当今商业中的使用非常普遍。在Dataquest,出于很多原因,我们通常推荐使用代码处理数据,并且我们的许多数据科学课程的目标是教授数据分析和数据科学的高效编码。但是,无论您多么喜欢使用Python,在一天结束时,有时您还是需要使用Excel来展示您的发现或共享您的数据。
但这并不意味着我们就不能继续享受Python的一些效率了!实际上,使用一个名为xlwings的库,您可以使用Python使Excel运行得 […]
-
Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架,而 PySpark 是 Python 使用 Spark 的库。
PySpark 是一种用于大规模执行探索性数据分析、构建机器学习管道以及为数据平台创建 ETL 的出色语言。如果你已经熟悉 Python 和 Pandas 等库,那么 […]
-
目录
一、为什么将Python与Excel VBA集成?
二、为什么使用xlwings?
三、玩转xlwings这次我们会介绍如何使用xlwings将Py […]
-
参考自初识聚类算法:K均值、凝聚层次聚类和DBSCAN。
聚类的目的
将数据划分为若干个簇,簇内相似性大,簇间相似性小,聚类效果好。用于从数据中提取信息和规律。聚类的概念
层次与划分:当允许存在子簇时,将数据按照层次划分,最终得到的是一颗树。树中包含的层次关系即为聚类划分的层次关系。各个子簇不重叠,每个元素都隶属于某个level的子簇中。
互斥、重叠与模糊:这个概念的核心在于,所有集合元素都不 […] -
一. 概率分布概述
共轭意味着它有共轭分布的关系。
在贝叶斯概率论中,如果后验分布 p(θx)与先验概率分布 p(θ)在同一概率分布族中,则先验和后验称为共轭分布,先验称为似然函数的共轭先验。共轭先验维基百科在这里(https://en.wikipedia.org/wiki/Conjugate […] -
作为数据分析中最重要的一个分析思维,漏斗分析在业务流程拆解和问题环节定位上具有非常重要的作用。当我们无法确定问题发生在哪个环节时,一般会通过将业务流程进行拆解,比较各个环节之间的转化率/流失率,通过这种漏斗分析的方法来定位问题原因,今天我们就来一起学习它。
一、什么是漏斗分析?
什么是漏斗分析?我们知道,业务设计都是有流程的,而从业务流程起点开始到最后目标完成的每个环节都会存在着用户流失,因此我们需要一种分析方法 […]
-
导读
在统计学中,有哪些常见的谬误?
在分组比较中都占优势的一方,为什么在总评中反而成为失势的一方?
小红热爱音乐,她更可能是琴师还是会计?
乳房影像检查显示自己患上乳癌,确诊和误诊的概率分别为多大?
把一个样本从一个组移去另一个组,怎么会同时提升两个组的平均值?今天这 […]
-
员工表的主要信息:
需求:检索工资大于同职位的平均工资的员工信息。
直觉的做法
员工多,而相应的职位(如销售员、经理、部门经理等)少,因此首先想到的思路是对职位分组,这样就能分别得到各个职位的平均工资,再比较每个人的工资和他对应职位的平均工资,大于平均工资则被筛选出来。1.首先得到各个职位的平均工资
代码如下:
select job,avg(sal) from emp group by jo […] - 读取更多