一起大数据

所有文章 第2页

动态

数据分析招聘(06.15)

1

xsmile 发布于 2017-06-16

小编建议: 求职者请把简历发布到http://www.datathinking.com,需要协助宣传的,请准备好个人介绍和求职意向,附带简历链接一起发给小编,小编会帮忙咨询下圈内朋友. 招聘者可以直接把整理好的职位,包括公司介绍,薪资范围和联系方式发给小编,或者发布到http:/...

阅读(419)评论(0)赞 (1)

数据挖掘

交叉验证(Cross Validation)原理小结

xsmile 发布于 2017-06-15

作者 刘建平Pinard 原文 http://www.cnblogs.com/pinard/p/5992719.html 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集...

阅读(481)评论(0)赞 (0)

数据挖掘

k-近邻算法

5

xsmile 发布于 2017-06-14

作者:王哲 from http://www.cnblogs.com/qwertWZ/p/4582096.html 转载请在显著位置注明作者及出处 目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结 系列文章:《机...

阅读(337)评论(1)赞 (0)

数据挖掘

决策树

2

xsmile 发布于 2017-06-14

作者:王哲 from http://www.cnblogs.com/qwertWZ/p/4960755.html 转载请在显著位置注明作者及出处 目录 1. 决策树的构造 2. 测试和存储分类器 3. 示例:使用决策树预测隐形眼镜类型 系列文章:《机器学习实战》学习笔记 决策树 ...

阅读(402)评论(0)赞 (1)

数据挖掘

《机器学习系统设计》第11章 降维 学习笔记

20

xsmile 发布于 2017-06-10

from http://www.cnblogs.com/zzhzhao/p/5370894.html   针对书上的内容和网络上的资料记录下来的笔记,大家一起学习交流。 一.为什么需要降维 (一) 多余的特征会影响或误导学习器 (二) 更多特征意味着更多参数需要调整,过拟合风险也...

阅读(519)评论(0)赞 (2)

数据挖掘

关联规则评价

2

xsmile 发布于 2017-06-08

      前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。 一个误导我们的强规则 看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联...

阅读(443)评论(0)赞 (1)

数据挖掘

数据挖掘之KNN分类

3

xsmile 发布于 2017-06-08

from http://www.cnblogs.com/fengfenggirl/archive/2013/05/27/knn.html 分类算法有很多,贝叶斯、决策树、支持向量积、KNN等,神经网络也可以用于分类。这篇文章主要介绍一下KNN分类算法。 1、介绍 KNN是k ne...

阅读(395)评论(0)赞 (0)

数据挖掘

异常检测算法–Isolation Forest

5

xsmile 发布于 2017-06-08

  南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结。 iTree 提到森林,自然少不了树,毕竟森林都是由树构成的,看Isolation Forest(...

阅读(826)评论(0)赞 (0)

数据挖掘

征信业必将大有可为?从拒绝推断说起

6

xsmile 发布于 2017-05-24

作者:KPMG专业数据挖掘团队 从“拒绝推断”说起 如果你读过我们先前发布的《解读芝麻信用与FICO评分的差异》,一定已经对“信用评分”的工作方式有所了解啦。除了打开支付宝就可以看见的芝麻信用评分之外,目前,较为权威的第三方信用评分机构包括FICO,Vantage,Experia...

阅读(724)评论(0)赞 (0)

R

R语言之Apriori算法应用

3

xsmile 发布于 2017-05-14

from http://www.cnblogs.com/dm-cc/p/5737147.html 一. 概念 关联分析用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则(association rule)或频繁项集的形式表示。 项集:在关联分析中,包含0个或多个...

阅读(730)评论(0)赞 (5)

R

信用卡评分模型(R语言)

18

xsmile 发布于 2017-05-09

from http://blog.csdn.net/csqazwsxedc/article/details/51225156 信用卡评分 2016年1月10日 一、数据准备 1、 问题的准备 •            目标:要完成一个评分卡,通过预测某人在未来两年内将会经历财务危...

阅读(1900)评论(0)赞 (9)

案例

数据分析面试总结一

张龙祥 发布于 2017-05-09

本人于2018年6月份硕士毕业,2017年,为了找实习找工作四处奔波,前前后后投了100多次简历,面了30多家公司。在这期间,经历的丢手机从人间蒸发的惨状,也经历了两个半月减掉15g体重的神奇现象。总而来说,过程很艰辛,结果还是很美好。下面是我的面试经过。 第一个单位:北京互联网...

阅读(1689)评论(0)赞 (36)

R

偏最小二乘法介绍及应用

1

xsmile 发布于 2017-04-30

本文由一起大数据网整理,转载请保留原文链接。 为了更好的理解PLS,推荐大家先学习回归分析、典型相关分析和主成分分析相关知识内容(这些内容在SPSS视频教程里都有)。 第一部分:概念与诊断(来自百度百科) 偏最小二乘法,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简...

阅读(891)评论(0)赞 (4)

SAS

SAS聚类分析

3

xsmile 发布于 2017-04-12

from http://blog.163.com/zzz216@yeah/blog/static/16255468420121105146675/ 1 用CLUSTER过程和TREE过程进行谱系聚类 一、CLUSTER过程用法 CLUSTER过程的一般格式为: PROC CLUS...

阅读(696)评论(0)赞 (0)