理论

SPSS数据分析—多重线性回归

12

xsmile 发布于 2017-07-24

来自 博客园 只有一个自变量和因变量的线性回归称为简单线性回归,但是实际上,这样单纯的关系在现实世界中几乎不存在,万事万物都是互相联系的,一个问题的产生必定多种因素共同作用的结果。 对于有多个自变量和一个因变量的线性回归称为多重线性回归,有的资料上称为多元线性回归,但我认为多元的...

阅读(12)评论(0)赞 (0)

SPSS数据分析—多维尺度分析

28

xsmile 发布于 2017-07-21

来自 博客园 在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大。而我们的分析目的也是想查看这些对象间的差异性或相似性情况,此时由于数据的组成形式不一...

阅读(138)评论(0)赞 (0)

SMOTE

3

xsmile 发布于 2017-07-18

from http://blog.sina.com.cn/s/blog_7103b28a0102wpqm.html 这是应对非均衡训练数据集的一种方法。 针对非均衡训练数据,可以采用的方法包括:1)对多数类进行欠采样,去除一些样本使样本数目接近;2)对少数类进行过采样,增加一些样...

阅读(109)评论(0)赞 (1)

随机森林进行特征重要性度量的详细说明

xsmile 发布于 2017-07-17

来自 宋兵乙的博客 特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。 1 特征重要性​度量 计算某个特征X的重要性时,具体步骤如下: 1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)​计算袋...

阅读(158)评论(0)赞 (2)

Adaboost 算法

22

xsmile 发布于 2017-07-05

from http://blog.csdn.net/aliceyangxi1987/article/details/72969566 本文结构: 什么是集成学习? 为什么集成的效果就会好于单个学习器? 如何生成个体学习器? 什么是 Boosting? Adaboost 算法? 什...

阅读(334)评论(0)赞 (3)

Kaggle 神器 xgboost

2

xsmile 发布于 2017-07-05

from http://blog.csdn.net/aliceyangxi1987/article/details/72969146 在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是...

阅读(430)评论(0)赞 (1)

SQL for ElasticSearch—Crate.io简介

1

xsmile 发布于 2017-07-01

from http://lxw1234.com/archives/2017/01/828.htm 再次调研这个东西,是为了满足下面的需求: 一张拥有50+字段的表,记录数大概5亿-10亿;需要对每个字段进行模糊搜索,并要求即时响应结果;需要做一些简单的聚合统计; 看到这个需求,肯...

阅读(254)评论(0)赞 (1)

Sklearn 快速入门

2

xsmile 发布于 2017-06-20

from http://blog.csdn.net/aliceyangxi1987/article/details/71079505 学习资料:大家可以去莫烦的学习网站学到更多的知识。 本文结构: Sklearn 简介 选择模型流程 应用模型 Sklearn 简介 Scikit ...

阅读(560)评论(0)赞 (2)

交叉验证(Cross Validation)原理小结

xsmile 发布于 2017-06-15

作者 刘建平Pinard 原文 http://www.cnblogs.com/pinard/p/5992719.html 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集...

阅读(481)评论(0)赞 (0)

k-近邻算法

5

xsmile 发布于 2017-06-14

作者:王哲 from http://www.cnblogs.com/qwertWZ/p/4582096.html 转载请在显著位置注明作者及出处 目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结 系列文章:《机...

阅读(337)评论(1)赞 (0)

决策树

2

xsmile 发布于 2017-06-14

作者:王哲 from http://www.cnblogs.com/qwertWZ/p/4960755.html 转载请在显著位置注明作者及出处 目录 1. 决策树的构造 2. 测试和存储分类器 3. 示例:使用决策树预测隐形眼镜类型 系列文章:《机器学习实战》学习笔记 决策树 ...

阅读(402)评论(0)赞 (1)

《机器学习系统设计》第11章 降维 学习笔记

20

xsmile 发布于 2017-06-10

from http://www.cnblogs.com/zzhzhao/p/5370894.html   针对书上的内容和网络上的资料记录下来的笔记,大家一起学习交流。 一.为什么需要降维 (一) 多余的特征会影响或误导学习器 (二) 更多特征意味着更多参数需要调整,过拟合风险也...

阅读(519)评论(0)赞 (2)

关联规则评价

2

xsmile 发布于 2017-06-08

      前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。 一个误导我们的强规则 看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联...

阅读(443)评论(0)赞 (1)

数据挖掘之KNN分类

3

xsmile 发布于 2017-06-08

from http://www.cnblogs.com/fengfenggirl/archive/2013/05/27/knn.html 分类算法有很多,贝叶斯、决策树、支持向量积、KNN等,神经网络也可以用于分类。这篇文章主要介绍一下KNN分类算法。 1、介绍 KNN是k ne...

阅读(395)评论(0)赞 (0)

异常检测算法–Isolation Forest

5

xsmile 发布于 2017-06-08

  南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结。 iTree 提到森林,自然少不了树,毕竟森林都是由树构成的,看Isolation Forest(...

阅读(826)评论(0)赞 (0)