一起大数据

24小时更新:2篇     一周更新:8篇最新发布

R

R语言Data Frame数据框常用操作

xsmile 发布于 2016-12-04

Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。 Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。...

阅读(3)评论(0)赞 (0)

R

用R来做时间序列

xsmile 发布于 2016-12-04

from http://blog.sina.com.cn/s/blog_6bb07f830100xh0y.html 第一部分:怎么将数组转化为时间序列? ts(x, start=1,frequency=4) # 将x转化为时间序列model 通常状况下,当frequency=4,...

阅读(14)评论(0)赞 (0)

R

R语言:文本(字符串)处理与正则表达式

xsmile 发布于 2016-12-03

来自 http://blog.sina.com.cn/s/blog_69ffa1f90101sie9.html 处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运...

阅读(15)评论(0)赞 (0)

统计学

四分位数(定义、位置、数值)

xsmile 发布于 2016-12-03

一、定义 四分位数(Quartile)是统计学中分位数的一种,即把所有数据由小到大排列并分成四等份,处于三个分割点位置的数据就是四分位数。 第一四分位数 (Q1),又称“下四分位数”,等于该样本中所有数据由小到大排列后第25%的数据。 第二四分位数 (Q2),又称“中位数”,等于...

阅读(22)评论(0)赞 (0)

SAS

SAS十大性能优化技术

2

xsmile 发布于 2016-12-02

这是2012年SAS全球用户大会的一篇文章,主要讲编程时注意哪些问题,才能提高SAS程序的执行效率,很显然,一篇文章很难讲全SAS代码优化的全部技术,这里只是作者本人和他调查周围的程序员的一些经验总结,有很多方面并没有考虑到,如硬件情况。但是作为一篇入门级的SAS代码优化文章来读...

阅读(19)评论(0)赞 (0)

SAS

SAS PROC SQL中DICTIONARY的使用介绍

xsmile 发布于 2016-12-02

DICTIONARY介绍 DICTIONARY可以得到很多SAS文件和会话等很多的元数据,包括SAS文件,外部文件,系统选项、宏、标题、脚注等。 DICTIONARY是在初始化时就创建,自动更新,并只允许读取操作,故不能修改。 下面列举一下SAS中DICTIONARY所包含的表:...

阅读(23)评论(0)赞 (0)

数据分析

结构方程模型(SEM)

3

xsmile 发布于 2016-11-29

结构方程这几年热度不减,有必要研究一下它的R语言实现过程,今天先复习一下结构方程的相关理论,参考吉林大学余翠林的ppt 一、  为什么使用SEM?  1、回归分析有几方面的限制: (1)不允许有多个因变量或输出变量 (2)中间变量不能包含在与预测因子一样的单一模型中 (3)预测因...

阅读(57)评论(0)赞 (2)

数据挖掘

数据弱鸡的天池观光游(一)

6

xsmile 发布于 2016-11-29

作者:字节 链接:https://zhuanlan.zhihu.com/p/23845169 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 国庆节前后,公司小伙伴给我推荐了个传说中的天池机器学习算法大赛(赛题链接:机场客流量的时空分布预测),说...

阅读(42)评论(0)赞 (0)

数据挖掘

特征选择, 经典三刀

32

xsmile 发布于 2016-11-25

特约作者:史春奇 数据应用学院 特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是特征工程(Feature Engineering)的两个重要的方面。 ?他们之间最大的区别就是是否生成新的属性。 ?FS仅仅对特征进行排...

阅读(69)评论(0)赞 (0)

数据挖掘

一个隐马尔科夫模型的应用实例:中文分词

19

xsmile 发布于 2016-11-23

什么问题用HMM解决 现实生活中有这样一类随机现象,在已知现在情况的条件下,未来时刻的情况只与现在有关,而与遥远的过去并无直接关系。 比如天气预测,如果我们知道“晴天,多云,雨天”之间的转换概率,那么如果今天是晴天,我们就可以推断出明天是各种天气的概率,接着后天的天气可以由明天的...

阅读(72)评论(0)赞 (0)

数据挖掘

深度学习调参有哪些技巧?

13

xsmile 发布于 2016-11-23

作者:杨军 链接:https://www.zhihu.com/question/25097993/answer/127374415 来源:知乎 著作权归作者所有,转载请联系作者获得授权。 Share一些自己关于深度学习模型调试技巧的总结思考(以CNN为主)。 最近因为一些需要,参...

阅读(62)评论(0)赞 (0)

数据挖掘

97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)

7

xsmile 发布于 2016-11-22

摘要 深度学习当前在NLP领域发展也相当快,翻译,问答,摘要等基本都被深度学习占领了。 本文给出基于深度学习的中文分词实现,借助大规模语料,不需要构造额外手工特征,在2014年人民日报语料上取得97.5%的准确率。模型基本是参考论文:http://www.aclweb.org/a...

阅读(87)评论(0)赞 (2)

数据挖掘

推荐系统

9

xsmile 发布于 2016-11-21

本文结构: 推荐系统 常用方法 简介 模型 cost, gradient 表达式 代码实现 应用实例 参考: Coursera-Andrew Ng 的 Machine Learning Sirajology 的 Recommendation Systems – Lea...

阅读(62)评论(0)赞 (0)

大数据

腾讯亿级排行榜系统实践及挑战

18

xsmile 发布于 2016-11-21

一. 背景 排行榜满足了人的攀比、炫耀心理,几乎每个产品都会涉及。SNG增值产品部的QQ会员、QQ动漫、企鹅电竞、游戏赛事等大量业务都对排行榜有强烈需求,特别是企鹅电竞等业务的发展壮大对我们排行榜系统提出了更多要求和挑战。在过去的一年中,排行榜系统从无到有,接入的业务从单一的QQ...

阅读(57)评论(0)赞 (1)

数据挖掘

机器学习常见算法分类汇总

16

xsmile 发布于 2016-11-19

原文出处:IT经理网 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来...

阅读(69)评论(0)赞 (2)

数据挖掘

IBM Watson机器人算法介绍

7

xsmile 发布于 2016-11-19

作者:卢晓东 Watson机器人产生于IBM的Watson研发中心,机器人短期的主要目标是回答Jeopardy!?竞赛的问题。并期望以此作为起点,研发出一个稳定的,有扩展性的机器人基础架构,来为后续的商业应用做准备。 Watson机器人分为三大部分 1、硬件部分 2、语音识别部分...

阅读(65)评论(0)赞 (0)

数据挖掘

机器学习应该了解的十大算法

10

xsmile 发布于 2016-11-19

监督式学习 决策树 朴素贝叶斯分类器 最小平方回归 逻辑回归 支持向量机 集成方法 非监督学习 聚类算法 主成分分析 奇异值分解 独立成分分析 毫无疑问,近些年机器学习和人工智能领域受到了越来越多的关注。随着大数据成为当下工业界最火爆的技术趋势,机器学习也借助大数据在预测和推荐方...

阅读(88)评论(0)赞 (0)

数据挖掘

轻松看懂机器学习十大常用算法

37

xsmile 发布于 2016-11-19

来自 网络 通过本篇文章大家可以对ML的常用算法形成常识性的认识。没有代码,没有复杂的理论推导,仅是图解,介绍这些算法是什么以及如何应用(例子主要是分类问题)。以后有机会再对单个算法做深入地解析。 今天的算法如下: 决策树 随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法...

阅读(68)评论(0)赞 (0)