数据挖掘

一文了解机器学习知识点及其算法(附python代码)

来自 数据城堡 机器学习发展到现在,已经形成较为完善的知识体系,同时大量的数据科学家的研究成果也让现实问题的处理有了相对成熟的应对算法。 所以对于一般的机器学习来说,解决问题的方式变的非常简单:熟悉这些基本的算法,并且遇到实际的问题能够系统...

scikit-learn 逻辑回归类库使用小结

from http://www.cnblogs.com/pinard/p/6035872.html    之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结。这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结。...

Rattle :基于R的数据挖掘工具:简介和安装

from http://blog.csdn.net/u010022051/article/details/47660663 1.Rattle是什么 数据挖掘是当今时代的一门核心技术,提供了对大数据的描述,探索,模式的识别和预测。数据挖掘者们...

官方说明文档|手把手教你在R中Prophet

本使用说明教程主要翻译整理自 Prophet 的官方说明文档 教程中使用的数据集可在 Prophet 的 github 主页 中的 examples 文件夹 内下载得到。 Prophet 是 Facebook 推出的开源大规模预测工具,可以...

如何入门数据分析&数据挖掘?

from http://www.cnblogs.com/charlotte77/p/5340336.html 作者 Charlotte77 授权一起大数据网转发。 1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,...

流形学习-高维数据的降维与可视化

转载请注明出处:http://blog.csdn.net/u012162613/article/details/45920827 1.流形学习的概念 流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学...

生成对抗网络(GAN)之MNIST数据生成

本文原作者天雨粟,原文载于作者的知乎专栏——机器不学习,一起大数据网经授权发布。 前言 GAN从2014年诞生以来发展的是相当火热,比较著名的GAN的应用有Pix2Pix、CycleGAN等。本篇文章主要是让初学者通过代码了解GAN的结构和...

另一种确定kmeans中k值的思路——Gmeans

from http://blog.sina.com.cn/s/blog_7103b28a0102w805.html G-means的思路为:检测一个质心所含的数据看上去是否是高斯的,如果不是就分裂这个簇。G-means能很好地处理stret...

SMOTE

from http://blog.sina.com.cn/s/blog_7103b28a0102wpqm.html 这是应对非均衡训练数据集的一种方法。 针对非均衡训练数据,可以采用的方法包括:1)对多数类进行欠采样,去除一些样本使样本数目...

随机森林进行特征重要性度量的详细说明

来自 宋兵乙的博客 特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。 1 特征重要性​度量 计算某个特征X的重要性时,具体步骤如下: 1)对每一颗决策树,选择相应的袋外数据...

Adaboost 算法

from http://blog.csdn.net/aliceyangxi1987/article/details/72969566 本文结构: 什么是集成学习? 为什么集成的效果就会好于单个学习器? 如何生成个体学习器? 什么是 Boos...

Kaggle 神器 xgboost

from http://blog.csdn.net/aliceyangxi1987/article/details/72969146 在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表...

Sklearn 快速入门

from http://blog.csdn.net/aliceyangxi1987/article/details/71079505 学习资料:大家可以去莫烦的学习网站学到更多的知识。 本文结构: Sklearn 简介 选择模型流程 应用模...