一起大数据

24小时更新:0篇     一周更新:5篇最新发布

数据分析

一位电商数据分析师的经验总结

xsmile 发布于 2016-08-23

来自 http://zhoulili1987619126.lofter.com/post/1cc8f7a3_5611361 08年毕业,不知不觉的混进了电子商务行业,又不知不觉的做了三年数据分析,恰好又赶上了互联网电子商务行业发展最快的几年,也算是不错吧,毕竟感觉前途还是很光明的...

阅读(43)评论(0)赞 (0)

R

时间序列分析—(ARIMA模型)

16

xsmile 发布于 2016-08-23

来自 http://blog.163.com/zhoulili1987619@126/blog/static/353082012015516103746884/ 指数平滑法对于预测涞水是非常有帮助的,而且它对时间序列上面连续的值之间相关性咩有要求。但是,如果你想使用指数平滑法计算...

阅读(17)评论(0)赞 (0)

R

数据帮:地图可视化REmap包-remapB函数及实例

9

金小贝 发布于 2016-08-18

原创:金小贝  QQ交流:675229288 remapB( )函数是REmap包核心函数之一,直接调取百度地图,可进行缩放、退拽,可查看全国及省市地图。与remap( )函数一样可实现流向地图及形成地图,还可以绘制车辆线路图。除了使用百度地图为背景层以外,其参数更加灵活,自主个...

阅读(127)评论(0)赞 (3)

数据挖掘

集成学习方法

2

xsmile 发布于 2016-08-18

集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀”,非常万能且有效,在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单,集合多个模型的能力,达到“三个臭皮匠,赛过诸葛亮”的效果。集成学习中概念是很容易理解的,但是好像没有同一的术语,很多书本上写得...

阅读(74)评论(0)赞 (1)

R

数据帮:地图可视化REmap包-基础函数介绍

金小贝 发布于 2016-08-15

  原创:金小贝  QQ交流:675229288        地图可视化、热力地图、行为轨迹在以LBS为基础的o2o行业很热门,友好方便的交互地图则备受青睐,REmap包是地图可视化工具之一,函数参数设置简单明了,是R与Echarts的对接,使用户可以在R中直接调用E...

阅读(142)评论(0)赞 (3)

SAS

SAS中nodupkey和nodup的区别

xsmile 发布于 2016-08-11

来自 http://blog.sina.com.cn/s/blog_632721090100puep.html 1. nodupkey会把同by variable里变量有相同值的observation都删掉。这些observation包括那些与by variable里变量有相同值...

阅读(150)评论(0)赞 (1)

R

数据帮:R对常用格式数据读入(txt\csv\excel)

1

金小贝 发布于 2016-08-10

原创:金小贝  QQ交流:675229288         作为一个R新手,安装完R软件,IDE也选定安装好了之后,最跃跃欲试的是什么?反正我是读入数据!当时是这样,在RStudio里打印出“Hello World!”之后,马上动手读入我本地的excel数据,准备开启自己的大R...

阅读(246)评论(0)赞 (3)

大数据

面试干货!21个必知数据科学面试题和答案

16

xsmile 发布于 2016-08-08

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。  ...

阅读(249)评论(1)赞 (2)

大数据

大数据产品-腾讯信鸽之手游流失预测

3

xsmile 发布于 2016-08-08

        背景         随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住用户,获得更大的收益。在游戏运营中,无论是流失挽留,还是拉新,以及付费用户预测都是游戏运营的重要内容。       ...

阅读(115)评论(1)赞 (0)

R

R作图–坐标中断(axis breaks)– plotrix

2

xsmile 发布于 2016-08-08

来自 http://blog.sina.com.cn/s/blog_670445240102vj8a.html R当中的坐标中断一般都使用plotrix库中的axis.break(), gap.plot(), gap.barplot(), gap.boxplot()等几个函数来实...

阅读(117)评论(0)赞 (0)

R

数据帮:使用R做数据探索(下)

14

金小贝 发布于 2016-08-05

原创:金小贝  QQ交流:675229288         接上篇,数据探索的另一个方面是:图,利用各种图形能更加直观的对数据把握。常用探索的图包括散点图(plot)、直方图(hist)、箱线图(boxplot)、柱状图(barplot)、饼图(pie)等。本文此处作图的目的是...

阅读(297)评论(0)赞 (7)

SAS

如何使用K-MEANS聚类算法解决分类问题

9

xsmile 发布于 2016-08-02

K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 对于聚类问题,我们事先并不知道给定的一个训练数据集到底具有哪些类别的标签,只是先行...

阅读(280)评论(0)赞 (0)

数据挖掘

机器学习 刀光剑影 之屠龙刀

1

xsmile 发布于 2016-08-02

机器学习是一个大武林,这里面江湖人士颇多,“发明”出来的算法兵器也是五花八门,浩瀚如海,足够你数上三天两夜了。然而,这些兵器行走江湖能用的不多,真正无敌的更是屈指可数,或许只有屠龙刀倚天剑了。正如江湖传言:武林至尊,宝刀屠龙,号令天下,莫敢不从,倚天不出,谁与争锋? 机器学习中还...

阅读(130)评论(0)赞 (0)

SAS

数据清理data Cleaning技术大全及SAS实现

xsmile 发布于 2016-08-01

来自 http://blog.sina.com.cn/s/blog_5d3b177c0100esmx.html 1 简介 数据清理是数据准备一个很重要的环节,什么是数据清理呢?数据清理 Is for techies 技术人员的事 Is just coding 只是写代码 Is b...

阅读(181)评论(0)赞 (0)

数据挖掘

数据挖掘模型中的IV和WOE详解

22

xsmile 发布于 2016-08-01

来自 http://blog.csdn.net/kevin7658/article/details/50780391 1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变...

阅读(280)评论(0)赞 (1)

R

信用评分的简单小结(ROC,IV,WOE)

6

xsmile 发布于 2016-08-01

来自 http://chen.yi.bo.blog.163.com/blog/static/150621109201011115616880 由于专业的关系,我学习信用评分的时候往往最关注模型那一块,前段时间一直有很多困惑,这周认真地看了一篇文章,终于有一点点明白了,所以来简单地...

阅读(279)评论(0)赞 (0)

SAS

SAS的数组array介绍

xsmile 发布于 2016-08-01

SAS可以把一组同为数值型或同为字符型的变量合在一起,使用同一个名字称呼,用下标来区分。这与通常的程序设计语言中的数组略有区别,通常的程序设计语言中数组元素没有对应的变量名,而SAS数组每个元素都有自己的变量名。 一、数值型数组 定义数值型数组的格式为: ARRAY 数组名(维数...

阅读(135)评论(0)赞 (0)

SAS

【SAS Macro】使用蒙特卡洛随机投点法估计面积

8

xsmile 发布于 2016-07-29

问题的起源来自万能的pyq: Okay,看到有奖金,小编很开心,不用三角函数不用积分,那就用一下蒙特卡洛随机投点咯~ 蒙特卡洛方法的最初的应用是1777年法国数学家Buffon提出利用投针试验求解的蒲丰投针问题:设我们有一个以平行且等距木纹铺成的地板(如图),现在随意抛一支长度比...

阅读(332)评论(0)赞 (2)