一起大数据

24小时更新:1篇     一周更新:4篇最新发布

数据分析

对应分析

xsmile 发布于 2017-01-18

日常分析中,经常会做的是研究变量间的关系,对于分类变量,常用的方法是卡方检验、Logistic模型等,但是对于分类变量很多,或者分类变量的类别很多时,用上述方法除了就会非常复杂,并且结果解释起来也不够直观,此时,可以使用对应分析加以分析。 对应分析也称为关联分析,是一种多元统计分...

阅读(101)评论(0)赞 (1)

数据挖掘

一文学会用 Tensorflow 搭建神经网络

13

xsmile 发布于 2017-01-16

本文是学习这个视频课程系列的笔记,课程链接是 youtube 上的, 讲的很好,浅显易懂,入门首选, 而且在github有代码, 想看视频的也可以去他的优酷里的频道找。 Tensorflow 官网 神经网络是一种数学模型,是存在于计算机的神经系统,由大量的神经元相连接并进行计算,...

阅读(594)评论(0)赞 (5)

数据分析

决策树的剪枝理论

4

xsmile 发布于 2017-01-11

剪枝理论,决策树的剪枝在上一节中没有仔细讲,趁这个机会学习了剪枝的基础理论,这里会详细学习。 决策树为什么(WHY)要剪枝?原因是避免决策树过拟合(Overfitting)样本。前面的算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都...

阅读(337)评论(0)赞 (2)

数据分析

决策树剪枝

26

xsmile 发布于 2017-01-11

from http://www.cnblogs.com/yonghao/p/5064996.html 什么是剪枝? 剪枝是指将一颗子树的子节点全部删掉,根节点作为叶子节点,以下图为例:   为甚么要剪枝? 决策树是充分考虑了所有的数据点而生成的复杂树,有可能出现过拟合的...

阅读(110)评论(0)赞 (0)

R

需求预测我喜欢用ARIMA模型

25

xsmile 发布于 2017-01-09

本文结构: 时间序列分析? 什么是ARIMA? ARIMA数学模型? input,output 是什么? 怎么用?-代码实例 常见问题? 时间序列分析? 时间序列,就是按时间顺序排列的,随时间变化的数据序列。 生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,...

阅读(262)评论(0)赞 (0)

数据挖掘

TensorFlow 入门

3

xsmile 发布于 2017-01-03

CS224d-Day 2: 在 Day 1 里,先了解了一下 NLP 和 DP 的主要概念,对它们有了一个大体的印象,用向量去表示研究对象,用神经网络去学习,用 TensorFlow 去训练模型,基本的模型和算法包括 word2vec,softmax,RNN,LSTM,GRU,C...

阅读(96)评论(0)赞 (0)

数据挖掘

【十大经典数据挖掘算法】SVM

2

xsmile 发布于 2016-12-29

SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(linear SVM in linearly separable case)的线...

阅读(103)评论(0)赞 (0)

数据挖掘

【十大经典数据挖掘算法】k-means

3

xsmile 发布于 2016-12-28

1. 引言 k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。 聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓“物以类...

阅读(107)评论(0)赞 (1)

数据挖掘

【十大经典数据挖掘算法】C4.5

4

xsmile 发布于 2016-12-27

1. 决策树模型与学习 决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出...

阅读(114)评论(0)赞 (0)

R

最近邻算法(KNN)

xsmile 发布于 2016-12-22

from http://blog.163.com/jiangfeng_data/blog/static/20641403820125141026440/   K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学...

阅读(124)评论(0)赞 (1)

KNIME

挖掘软件 | 用KNIME构建社会网络

12

xsmile 发布于 2016-12-17

社会网络分析(Social Network Analysis)是大数据分析的主要应用方向。社会网络分析关注的是关系,这种关系可以是人与人之间的关系,也可以是组织之间或是国家之间的关系,甚至可以是“啤酒”与“尿布”等物与物之间的关系。(注:“啤酒”与“尿布”的故事是一个数据挖掘的经...

阅读(137)评论(0)赞 (0)

KNIME

挖掘软件 | KNIME挖掘软件进行地图可视化呈现

10

xsmile 发布于 2016-12-17

沈浩老师 推荐数据挖掘开源软件KNIME,这款软件是可以数据流的形式进行数据挖掘,这点比较像IBM 的SPSS Modeler,学习使用起来还是很方便的。KNIME最棒的地方就是可以支持其他的开源工具,比如说数据挖掘常用的Weka,还有多用于统计分析的R,Python,其原生的就...

阅读(140)评论(0)赞 (2)

数据挖掘

Scikit-learn使用总结

8

xsmile 发布于 2016-12-16

在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,...

阅读(203)评论(0)赞 (1)