手把手教你Tableau高级数据分析功能(附数据集)

原文标题:A Step-by-Step Guide to learn Advanced Tableau – for Data Science and Business Intelligence Professionals作者:Pavleen Kaur
翻译:李清扬
校对:卢苗苗
本文借助高级图表创建计算深入研究数据以提取对数据的分析,并了解R如何与Tableau相互集成和使用。

简介

“查看数据。 显示图表。 讲故事。 吸引观众。”

Tableau是当今数据科学和商业智能专业人员使用的最流行的数据可视化工具之一。 它使您能够以交互和多彩的方式创建具有洞察力和影响力的可视化效果图。
它的用途不仅仅是创建传统的图表和图表。 您可以使用它来挖掘可操作的数据解析,这要归功于它提供的大量功能和自定义。
以其易用性和简单的功能而闻名,制作如下所示的富有洞察力的仪表盘只需点击几下鼠标:

在本文中,我们将看到一些超越拖放功能的高级图表。 我们将创建计算以深入研究数据以提取对数据的分析。 我们还将看看R如何与Tableau相互集成和使用。

本文假定您掌握丰富的使用Tableau的知识,例如基本图表形成,计算,参数等。如果您不这样做,我会建议先参考以下文章,然后再返回此处:

  • Tableau for Beginners – 简化数据可视化

Tableau for Beginners – Data Visualisation made easy

  • 中级Tableau指南 – 适用于数据科学和商业智能专业人员

Intermediate Tableau guide for data science and business intelligence professionals

目录

1.高级图形 – 可视化超越“显示我”

  • 运动图
  • 凹凸图
  • 甜甜圈图表
  • 瀑布图
  • 帕累托图

2.在Tableau中引入R编程
1. 高级图形 – 可视化超越’Show Me’

几乎所有的Tableau用户都知道各种基本图形,例如介绍仪表板中显示的那些图形。 这些图表可以使用Tableau的“Show Me”功能轻松完成。 但由于这是一篇面向高级用户的文章,因此我们将超越“Show Me”并探索需要额外计算的图表。

首先,让我们快速浏览一下我们将在接下来的几节中做什么。 以下是我们超市的销售额和利润的一些基本分析。 简单的图表可以达到与主板中的相同的目的,但我认为您会对这些图表的宏伟感到兴奋和激动。
(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/Sample-Superstore.xls/)

1.1动态图表

在开始之前,先看看Hans Rosling的世界经济图表展示(https://www.gapminder.org/tools/#_chart-type=bubbles)。 点击播放键,看到魔法在你面前展开。
有兴趣自己做一个类似的图表展示吗? 不要担心如何做这些动画!你所看到的被称为动态图表。 使用此功能,您可以实时查看数据中的变化。
因此,我们首先下载可在此处找到的Superstore数据集(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/Sample-Superstore.xls)。
现在让趋势线如下图所示对你来说应该很容易:

但是本节我们首先要学习的是如何使下面的趋势线运动(gif动图):
https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2017/08/23131759/2.gif
所以让我们开始吧!

  • 导入您的数据集,并创建上述趋势图。 我们的X轴是订单日期(月份格式),销售额和利润是度量值。
  • 您只需将“订单日期”拖到“页面”功能区,然后再次更改格式以与X轴匹配。
  • 将标记类型从自动更改变更为圆形。
  • 转到“显示历史记录”,然后选择“追踪”以查看趋势变化。 瞧! 您的动态图表已准备好启动。
  • 按箭头按钮查看动作,更改“显示历史”定制项,速度项等:

1.2凹凸图

假设你想探索Superstore各个部门的销售额(整整一年)。 其中一种方法是:

然而备选方案如下:

虽然折线图能够显示每个细分部门之间的销售差异,但凹凸图(上图)给出了更清晰和简明的相同结果图。

这些图表通常用于了解多年来特定产品的受欢迎程度如何变化。
现在让我们尝试自己创建一个:
1)首先,我们需要考虑度量单位,根据这些度量单位我们对我们的测量维度进行排名。 这里我们采取的度量单位是销售量,测量维度是部门。
2)您需要计算模块的帮助才能制作凹凸图表。 所以快速创建一个如下所示的计算。 我们将对每个细分部门的销售总额进行排名:

3)现在将“订单日期”拖到列中并将格式更改为月。 在标记窗格中将“Segment”拖动到Marks Pane里的颜色。 最后将“Rank”拖到行。
4)在你现在可以看到的图表中,排名是根据月份数量分配的。但是,我们需要他们在细分部门的基础上。 因此,右键单击行中的排名,然后转到编辑表格计算。
5)由于我们希望使用细分部门计算,请将配置更改为:

您将获得的图表看起来不像仪表板中的图表,因为它缺少标签。 让我们在双轴(Dual Axis)的帮助下快速修复:

6)再次将排名拖到行上并重复步骤4)和5)以得到:


您在Marks Pane中看到了Rank和Rank(2)吗?我们将使用这些来创建带圆圈的标签。
7)要将上述内容转换为双轴图表,请右键单击第二个图表的Rank轴并选择双轴。
8)在Marks Pane中,Rank或Rank(2),然后将标记类型更改为圆形而不是自动。
9)这里的排名按降序排列。 要将其更改为升序,请右键单击左侧的Rank轴 – >编辑轴 – >反向比例。 对右边的Rank轴重复同样的操作。
10)最后,将“销售额”拖放到标签 – >快速表计算 – >总计百分比上,以获得我们期望的凹凸图。

1.3甜甜圈图

圆环图是初级图的另一种表现形式。 坦率地说,它是一个中间有一个洞的饼图,但它有助于更加强调各个细分市场,如下所示:

让我们了解这个区别的不同之处。
1)我们将从一个简单的饼图开始描绘每个细分部门的利润:

2)要创建饼图的双轴,将measure的number?of?records拖动到rows两次。 通过右键点击它们并选择最小值代替默认总和来更改每个绿色药丸的度量:

3)选择Marks Pane中的第二个饼图,并将其中的每个度量/维度拖出。 减小图表的大小,并将颜色更改为白色(尽管此处未显示):

4)要创建双轴,右键单击第二个饼图的Y轴,然后选择双轴,以获得图表。
现在你必须明白,以上所有图表虽然在最终外观上都不相同,但都是从“显示我”功能的核心图表中获得的。 但是等一下,它还没有结束。 我有更多要展示给你。
1.4瀑布图

瀑布图的名称来自于其类似的方向和流动。在这里,我们绘制了Superstore多年来的运行销售情况,您可以在2013年中和2014年初看到两个小红色区域,表明销售额实际下降了,并且还有多少。
这意味着这些图表被用来分析一个度量的累积效应,并且看它是如何作为一个整体增加和减少的。 为了更好地理解这一点,让我们想象它。
瀑布图是折线图的衍生物,因此我们将从该图开始:

注意:这里的X轴是订单日期(以月 – 年格式并转换为离散型), Y轴是利润
1)右键单击绿色的Profit Pill,然后选择Quick Table Calculation – > Running Total。
2)将标记类型从自动更改为甘特条:


3)创建一个名为’NegProfit’的计算字段:


4)将这个NegProfit拖到Marks框架中的Size上,得到:


计算的字段用于填写甘特图中的空间。 利润中的负值将向下延伸,而正值则会向上延伸。
图表中每个小条的长度表示利润从一个月到下一个月的变化量。
5)最后,将利润拖到颜色:


6)您可以继续前进,将颜色更改为两步变化,并清楚地查看上升和下降:

您将获得的图表也可以非常容易地以条形图的形式表示。 请注意,我在这里将颜色分置,以使其凸显出来:


但我相信你会同意使用瀑布图是一种更直观的表示数据的方式,特别是看看多年来度量的变化,例如销售和利润。
1.5帕累托图
下面我已经将一个流行的80-20数据分析原理可视化出来。 如果你还没有听说过它,让我试着用例子来解释它。我们会经常观察到超市的大部分销售来自少数几种产品。
人们不能指望面包和鸡蛋与蛋糕有相同的销售数字,对吧? 这正式被称为80-20原则,这意味着80%的销售额来自20%的产品。 在我们的超市里,这个原则可以在下面的图表中看到,其中大部分销售是由电话和椅子生成的:


这是一种相当流行的可视化,帕累托图通常用于风险管理,以确定对项目造成最大负面影响的最常见问题; 但正如我们将看到的,它也可以有其他应用程序。
让我们看看它是如何完成的:
1)我们将从下面的图表开始。 这具有作为X轴的子类别和作为Y轴的销售。 图表按降序排列:


2)接下来,将销售额拖放到图表上,直到您看到绿色突出显示的条形和最右边的虚线轴:


3)在此处下降销售以创建双轴。 将第一个图表的标记类型更改为条形图,将第二个图表更改为直线,最终得到:


4)右键单击第二个绿色销售药丸,并为其添加运行总计算:


5)剩下的只是改变配色方案,并且您的帕累托图表已准备就绪!
2.在Tableau中引入R编程
我喜欢Tableau的一个原因是,它不仅仅是一个工具,而且意味着只需拖放操作即可创建漂亮的图形。随着2013年Tableau 8.1的发布,出现了许多新的功能。
R编程的引入使得更丰富和动态的可视化得以实现,这是主要特征之一。 R编程可与Tableau一起用于聚类、预测等技术。
我想通过Clustering开始对R和Tableau的探索,所以我使用了超流行的Iris Dataset(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/iris.csv)。 它包含不同的功能来区分3种类型的flowers,即Virginica,Setosa和Versicolor。 正如你在下面的图片中看到的那样,R编程整合很容易创建这三种物种的集群:


如果你有兴趣,可进行一下操作。首先,深入了解基础知识和安装过程,然后深入研究可视化问题!
以下描述了Tableau和R之间的控制流程,以实现此集成:


R脚本作为表计算写入Tableau,并发送到R的R服务包。在此模块执行必要的计算并将结果返回给Tableau。
注意:为了正确理解并使用此功能,您必须具备R及其各种语法的一些知识。 对于相同的你可以参考以下教程:

Learn Data Science in R from scratch:
https://www.analyticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/

现在让我们看看这个集成的步骤:
1)安装R?(https://cran.r-project.org)
2)安装Rserve软件包
在R命令行中运行以下命令:


3)配置Tableau以在R中运行
打开Tableau – >帮助 – >设置和性能 – >管理R /外部连接。 使用以下默认信息填写字段并选择测试连接:


所以,现在你已经准备好了适当的配料,让我们开始吧!
如上图所示,您可以使用Tableau的表计算与R进行通信:


如果您向下滚动功能列表,您将遇到以下四种情况:


当计算区域中包含这些函数时,Tableau会自动理解该脚本适用于R.
我希望你最初兴奋的制作集群仍然存在! 我们继续。
1)从这里下载Iris数据集。
https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/iris.csv
2)在Tableau中导入数据集,并制作下图:


3)在这里,您可以通过不同的度量获得总和。要获得离散值,请转至分析,并取消选中聚合度量,以获取:


4)最后,要形成群集,请在标记窗格中将类维度拖到颜色上:


我们上面有一个散点图,它显示了分为3个不同群集的数据点群集。
现在让我们尝试与R一样,并比较我们将得到的两个可视化。 我们将使用最常见的聚类算法K-Means:
1)从与上面第2点相同的散点图开始。
2)创建一个新的计算字段并填写以下内容:


为了清楚起见,上述计算是:


3)最后,将新形成的Field Cluster拖放到Marks Pane中的Color,以使您的集群准备就绪!
虽然有一些重叠,但这两个可视化确实看起来相当准确。
这是将R与Tableau集成的潜力的一个小要点。 它的应用程序是无限的,我相信你一定已经开始考虑可以与之交互的不同方式。
结束笔记
如果我说这就是Tableau的全部,这可能稍显幼稚。随着新版本的推出,新功能也将随之推出。
不仅如此,人们总是在试验和探索Tableau,并提出新的视觉效果。在很多博客里,人们也发布了其数据实验。可以搜索一下。
您还可以在Tableau官方图库页面上查找每周更新的可视化图像(https://public.tableau.com/en-us/s/gallery)。 建议你继续参考这些帖子,创建自己的视觉效果,并与社区分享。
作为一名数据探索者,保持创意并保持最佳状态!
原文链接:https://www.analyticsvidhya.com/blog/2018/03/tableau-for-advanced-users-easy-expertise-in-data-visualisation/

译者简介
李清扬,清华大学工商管理研究生在读,主修管理学。对大数据、人工智能在经济金融领域的应用感兴趣。希望能在数据派平台获得大数据前沿知识,找到志同道合的朋友,一起研究和应用数据分析工具于企业管理实践当中。
分享到:更多 ()

抢沙发

评论前必须登录!