机器学习

[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)

阅读目录 1. 基本思想 2. 局部敏感哈希LSH  3. 文档相似度计算 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜...

CBC数据分析—Logit模型

作者 刘强、曾步凡  在这个系列文章里,我们曾介绍过使用简单的回归来分析联合分析的数据。但是随着产品的复杂程度的增加,这种方式就不太适用了。一方面是当产品的属性和水平较多时,每个消费者需要评估的概念产品数量变得更多,即便通过试验设计的方式,...

集成学习之AdaBoost

from https://blog.csdn.net/sunbobosun56801/article/details/77891470 当做出重要决定时,大家可能会考虑吸取多个专家而不只是一个人的意见,机器学习也是如此,这就是集成学习的基本...

使用开源软件快速搭建数据分析平台

来自 https://my.oschina.net/taogang/blog/3039572 架构图: 为了构建一个最简单的开箱即用的数据分析平台,我使用了如下的技术栈: 服务器端: sanic 基于Python3的web服务器 panda...

聚类分析 – K-means – Python代码实现

算法简介 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法过程如下: 1)从N个文档随...

交互式数据分析工具 Scriptis

Scriptis是一款支持在线写SQL、Pyspark、HiveQL等脚本,提交给Linkis执行的数据分析Web工具,且支持UDF、函数、资源管控和智能诊断等企业级特性。 核心特点: 脚本编辑:多语言、自动补全、语法高亮、SQL语法纠错;...

Tableau集成Python机器学习实践(下)

from https://zhuanlan.zhihu.com/p/30221630 Tableau报表创建 数据准备 我们还是引用iris数据集的csv数据格式作为tableau的数据源,里面包含了class这个维度字段和sepal_le...

Tableau集成Python机器学习实践(中)

from https://zhuanlan.zhihu.com/p/30221526 基于Iris数据集的机器学习实践 Iris数据集简介 iris数据集由Fisher, 1936收集整理,Iris也称安德森鸢尾花卉数据集,英文全称是And...

Tableau集成Python机器学习实践(上)

from https://zhuanlan.zhihu.com/p/30221355 导言 机器学习是目前炙手可热的一门交叉学科,致力于研究通过计算的手段,利用经验来改善系统自身的性能,目前已经有相当成熟的应用场景。Tableau是致力于帮...

机器学习实战——SVD(奇异值分解)

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_36523839/article/details/82347332 与PC...

GBDT+LR算法进行特征扩增

转自 http://blog.csdn.net/TwT520Ly https://blog.csdn.net/TwT520Ly/article/details/79769705 参考文献: https://blog.csdn.net/lil...

sklearn入门教程:分类、聚类、回归和降维

作者 zhouchen sklearn中的sk代表着scikit,就可以知道这是一个用于科研的工具包了,那么这个科研工具包种都包含了哪些内容呢? 下面这个图描述了sk-learn所覆盖的领域。 分类、聚类、回归和降维,基本的数据算法需求均有...