机器学习

使用开源软件快速搭建数据分析平台

来自 https://my.oschina.net/taogang/blog/3039572 架构图: 为了构建一个最简单的开箱即用的数据分析平台,我使用了如下的技术栈: 服务器端: sanic 基于Python3的web服务器 panda...

聚类分析 – K-means – Python代码实现

算法简介 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法过程如下: 1)从N个文档随...

交互式数据分析工具 Scriptis

Scriptis是一款支持在线写SQL、Pyspark、HiveQL等脚本,提交给Linkis执行的数据分析Web工具,且支持UDF、函数、资源管控和智能诊断等企业级特性。 核心特点: 脚本编辑:多语言、自动补全、语法高亮、SQL语法纠错;...

Tableau集成Python机器学习实践(下)

from https://zhuanlan.zhihu.com/p/30221630 Tableau报表创建 数据准备 我们还是引用iris数据集的csv数据格式作为tableau的数据源,里面包含了class这个维度字段和sepal_le...

Tableau集成Python机器学习实践(中)

from https://zhuanlan.zhihu.com/p/30221526 基于Iris数据集的机器学习实践 Iris数据集简介 iris数据集由Fisher, 1936收集整理,Iris也称安德森鸢尾花卉数据集,英文全称是And...

Tableau集成Python机器学习实践(上)

from https://zhuanlan.zhihu.com/p/30221355 导言 机器学习是目前炙手可热的一门交叉学科,致力于研究通过计算的手段,利用经验来改善系统自身的性能,目前已经有相当成熟的应用场景。Tableau是致力于帮...

机器学习实战——SVD(奇异值分解)

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_36523839/article/details/82347332 与PC...

GBDT+LR算法进行特征扩增

转自 http://blog.csdn.net/TwT520Ly https://blog.csdn.net/TwT520Ly/article/details/79769705 参考文献: https://blog.csdn.net/lil...

sklearn入门教程:分类、聚类、回归和降维

作者 zhouchen sklearn中的sk代表着scikit,就可以知道这是一个用于科研的工具包了,那么这个科研工具包种都包含了哪些内容呢? 下面这个图描述了sk-learn所覆盖的领域。 分类、聚类、回归和降维,基本的数据算法需求均有...

odds、OR和RR的计算公式和实际意义

from http://www.sohu.com/a/210568171_799723 1. Odds Odds 的意思为机率、可能性,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。假如某药物有疗效的比例为p1,则无效的比为1...

逻辑回归的通俗解释

1 逻辑回归的定位 首先,逻辑回归是一种分类(Classification)算法。比如说: 给定一封邮件,判断是不是垃圾邮件 给出一个交易明细数据,判断这个交易是否是欺诈交易 给出一个肿瘤检查的结果数据,判断这个肿瘤是否为恶性肿瘤 逻辑回归...

谈谈 Bias-Variance Tradeoff

准确是两个概念。准是 bias 小,确是 variance 小。准确是相对概念,因为 bias-variance tradeoff。 ——Liam Huang 在机器学习领域,人们总是希望使自己的模型尽可能准确地描述数据背后的真实规律。通俗...

通过关系网络进行欺诈检测和欺诈团伙发现

from https://blog.csdn.net/u010159842/article/details/80433354 近年来搞金融诈骗的越来越厉害啦,除了团伙化、组织化的趋势,有的居然每个月还有固定的推广费呢。那么,如何从数据的角度...

ML神器:sklearn的快速使用

from https://www.cnblogs.com/lianyingteng/p/7811126.html 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -&...

sklearn 的优雅数据挖掘流程

from https://blog.csdn.net/ma416539432/article/details/53510277 1)下载数据集,通过统计方法理解数据集,并可视化。 2)构建6个机器学习模型。从中选择最好的。 在下载并且安装好...

像小说一样有趣的算法入门书?

算法图解 内容简介 本书示例丰富,图文并茂,以简明易懂的方式阐释了算法,旨在帮助程序员在日常项目中更好地利用算法为软件开发助力。 前三章介绍算法基础,包括二分查找、大O 表示法、两种基本的数据结构以及递归等。 余下的篇幅将主要介绍应用广泛的...