Tableau集成Python机器学习实践(下)

from https://zhuanlan.zhihu.com/p/30221630

Tableau报表创建

数据准备

我们还是引用iris数据集的csv数据格式作为tableau的数据源,里面包含了class这个维度字段和sepal_length, sepal_width, petal_length, petal_width等4个度量字段。接下来,依次创建同名的4个参数,作为手动预测输入值。同时我们还要对批量的数据做预测,在这里还是使用iris数据集,把预测值和原来的值做一个对比,也算是做验证,看一下准确率如何。因此,我们还需要创建下面几个字段。

class_by_para:基于手动调整的参数进行预测

class_by_data:基于表格中的数据进行预测

match_or_not: 用于标记预测准确与否

accuracy: 用于计算预测准确率

可视化分析

先来做一个聚类分析图看看预测的效果,看起来petal_width这个特征上分类效果显著。setosa这个类别和其它两个类差别明显。

接下来看一下明细的数据,真实分类和预测分类数据不match的用形状来标识一下,效果很直观。

基于参数的预测,最好指定一下参数的取值范围和格式。

最后把worksheets放在dashboard里,增加筛选器,文字和图片装饰,就大功告成啦!

总结

通过上面的实践,有以下几点值得注意(敲黑板,要划重点了):

1. Tableau目前只能在SCRIPT_XXX等4个函数中写Python脚本,对于本身比较复杂的函数,将代码部署至Tabpy服务器不仅使代码更简洁,而且也使得函数可复用;

2. 在Tableau中引用算法模型可实现基于机器学习模型的实时分析,增强了Tableau的可视化分析能力;

3. 在Tableau中引入的函数需要进行实时表计算,因此对于大规模的数据会比较耗时。一种折中的做法是在数据预处理阶段先使用算法模型计算好要求的值,然后Tableau中进行可视化分析。

参考资料

Tableau Tabpy Github page

Building advanced analytics applications with TabPy

本文所有数据,算法模型以及tableau文件均已上传至这里,欢迎交流。

分享到:更多 ()

抢沙发

评论前必须登录!