一起大数据

24小时更新:3篇     一周更新:6篇最新发布

资讯

基于五种机器算法的信用风险评估

9

JQstyle 发布于 2017-07-27

原文地址: https://mp.weixin.qq.com/s/sE7i4grdtY4WQMX—0Lk6g 作者:数据取经团-白云飞 基于五种机器算法的信用风险评估是一个系列文章,从互金数据出发,经过数据预处理,特征工程,建立机器学习模型,以及模型评估四个部分来分析建模。文章将...

阅读(4)评论(0)赞 (0)

Python

生成对抗网络(GAN)之MNIST数据生成

16

xsmile 发布于 2017-07-26

本文原作者天雨粟,原文载于作者的知乎专栏——机器不学习,一起大数据网经授权发布。 前言 GAN从2014年诞生以来发展的是相当火热,比较著名的GAN的应用有Pix2Pix、CycleGAN等。本篇文章主要是让初学者通过代码了解GAN的结构和运作机制,对理论细节不做过多介绍。我们还...

阅读(33)评论(0)赞 (0)

动态

自我代码提升之K近邻算法

8

JQstyle 发布于 2017-07-24

原文地址:http://mp.weixin.qq.com/s/Wj2MOPGvJJIkRrz1bsqbCw 作者:数据取经团-王嘉琪 在机器学习和数据挖掘常用的方法中,常规的建模思路是输入给定的训练数据集(类别标签已知),通过一系列的训练建立预测模型,通过将需要预测的数据输入到训...

阅读(71)评论(0)赞 (0)

SPSS

SPSS数据分析—多重线性回归

12

xsmile 发布于 2017-07-24

来自 博客园 只有一个自变量和因变量的线性回归称为简单线性回归,但是实际上,这样单纯的关系在现实世界中几乎不存在,万事万物都是互相联系的,一个问题的产生必定多种因素共同作用的结果。 对于有多个自变量和一个因变量的线性回归称为多重线性回归,有的资料上称为多元线性回归,但我认为多元的...

阅读(63)评论(0)赞 (0)

SPSS

SPSS数据分析—多维尺度分析

28

xsmile 发布于 2017-07-21

来自 博客园 在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大。而我们的分析目的也是想查看这些对象间的差异性或相似性情况,此时由于数据的组成形式不一...

阅读(175)评论(0)赞 (0)

资讯

Python数据分析告诉你为何上海的二手房你都买不起

41

JQstyle 发布于 2017-07-19

原文地址: http://mp.weixin.qq.com/s/B2832XEJ_Wy82yLKlgTBnw 作者:数据取经团-王大伟 前言 都说上海的房价高的吓死人,用上海话说就是:“vang 尬高得哈撒特宁”,二手房都买不起,那这房价到底有多高呢?我们酷爱来数据分析一波。。。...

阅读(217)评论(0)赞 (1)

资讯

数据可视化入门篇

10

JQstyle 发布于 2017-07-19

原文地址: https://mp.weixin.qq.com/s/e2tv85r3JLmy_8g_doaSuA 作者:数据取经团-张俊红 本篇要点: 01、数据可视化是什么 02、数据可视化的一般流程 03、常见的数据种类 04、通过可视化你想表达什么信息 05、选择具体的可视化...

阅读(142)评论(0)赞 (2)

资讯

爬虫界的一股清流——用安卓做一个朋友圈屏蔽检测器

3

JQstyle 发布于 2017-07-19

原文地址: http://mp.weixin.qq.com/s/7cWpkyPSfJgCisQLURXUDw 作者:数据取经团-施维 前言   前段时间,新版微信加入了一个朋友圈只给看三天的新功能。于是就有了一个经典梗:朋友圈陌生人可以看十张照片,熟人只能看三天,只能友尽了! 有...

阅读(89)评论(1)赞 (2)

资讯

自我代码提升之逻辑回归

9

JQstyle 发布于 2017-07-19

作者:数据取经团-王嘉琪 对于数据挖掘或是机器学习等算法的学习,用代码将之实现是次、动理论到实践的有效途径,而目前在数据科学应用领域,很多成熟的工具(诸如python的sklearn模块或是各种各样的R包),为我们的学习和工作提供了便利。但这并不意味着自己动手去实现算法失去了意义...

阅读(126)评论(0)赞 (3)

数据挖掘

SMOTE

3

xsmile 发布于 2017-07-18

from http://blog.sina.com.cn/s/blog_7103b28a0102wpqm.html 这是应对非均衡训练数据集的一种方法。 针对非均衡训练数据,可以采用的方法包括:1)对多数类进行欠采样,去除一些样本使样本数目接近;2)对少数类进行过采样,增加一些样...

阅读(138)评论(0)赞 (1)

数据挖掘

随机森林进行特征重要性度量的详细说明

xsmile 发布于 2017-07-17

来自 宋兵乙的博客 特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明。 1 特征重要性​度量 计算某个特征X的重要性时,具体步骤如下: 1)对每一颗决策树,选择相应的袋外数据(out of bag,OOB)​计算袋...

阅读(183)评论(0)赞 (2)

数据挖掘

Adaboost 算法

22

xsmile 发布于 2017-07-05

from http://blog.csdn.net/aliceyangxi1987/article/details/72969566 本文结构: 什么是集成学习? 为什么集成的效果就会好于单个学习器? 如何生成个体学习器? 什么是 Boosting? Adaboost 算法? 什...

阅读(347)评论(0)赞 (3)

数据挖掘

Kaggle 神器 xgboost

2

xsmile 发布于 2017-07-05

from http://blog.csdn.net/aliceyangxi1987/article/details/72969146 在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是...

阅读(466)评论(0)赞 (1)

数据可视化

可视化图表初阶

16

钟家福 发布于 2017-07-02

  简述 数据可视化-通过图表形式展现数据,帮助用户快速、准确理解信息。准确、快速是可视化的关键,好的可视化会“讲故事”,能向我们揭示数据背后的规律。对于可视化,有一个常见误区:分析师追求过于复杂的图表,反而使得业务人员难以理解。其实越简单的图表,越容易被理解,而快速易...

阅读(441)评论(0)赞 (4)

大数据

SQL for ElasticSearch—Crate.io简介

1

xsmile 发布于 2017-07-01

from http://lxw1234.com/archives/2017/01/828.htm 再次调研这个东西,是为了满足下面的需求: 一张拥有50+字段的表,记录数大概5亿-10亿;需要对每个字段进行模糊搜索,并要求即时响应结果;需要做一些简单的聚合统计; 看到这个需求,肯...

阅读(264)评论(0)赞 (1)