一起大数据

24小时更新:2篇     一周更新:7篇最新发布

数据挖掘

淘宝吴雪军:自然语言处理技术在搜索和广告中的应用

1

xsmile 发布于 2017-02-25

本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下: 我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网产品,它们前端都非常简单,但后台系统架构极其复杂。 今天主要讲三个方面的内容:第一、主要...

阅读(10)评论(0)赞 (0)

资讯

决策树之ID3和C4.5

10

张龙祥 发布于 2017-02-23

一、决策树 一种树状分类结构模型,是一种通过对变量值拆分建立起来的分类规则,又利用树形图分割形成的概念路径的数据分析技术。 二、决策树的两个关键步骤 三、决策树的构建步骤 注: ⑴第一步中:先找出各个可以作为分类变量的自变量的所有可能的划分条件,再对每一个自变量比较各个划分下所得...

阅读(68)评论(0)赞 (0)

SAS

SAS CTO告诉你统计建模、机器学习与人工智能的区别

2

xsmile 发布于 2017-02-22

关于统计建模、机器学习与人工智能之间的关系和区别,近来无论是在国内外像知乎一类的知识网站上,还是在业内业外爱好者的线下活动组织间,都引发了激烈讨论。今天,SAS首席技术官  Oliver Schabenberger 先生为我们带来了他的见解,希望能对各位小伙伴们有一些启发。 统计...

阅读(125)评论(0)赞 (0)

SAS

运用SAS文本分析,海量资料秒分析

3

xsmile 发布于 2017-02-22

我们常常会因为会议笔记内容过多难以归整而发愁?会因为论文众多却无暇浏览而苦恼?会因为短时间内处理巨大数据而绝望?面对这些困扰,SAS北京研发中心分析产品开发部总监高燕女士运用SAS文本分析,通过两个实验快速有效分析IALP大会论文。我们看看她是如何做到的? 不久前,我参加了在台湾...

阅读(58)评论(0)赞 (0)

SAS

分析大师系列:商业智能的前世今生

7

xsmile 发布于 2017-02-22

(一)从数据到智能 Google的首席经济学家 Hal Varian 在2010年指出“在接下来的岁月里,最时髦的工作将是统计学家…领悟数据的能力——理解数据、处理数据、提炼价值、可视化数据、沟通数据——必将成为一种极其重要的技能”。言犹在耳,大数据、数据可视化都已成了当下商业分...

阅读(83)评论(0)赞 (0)

资讯

朴素贝叶斯算法的案例实现

15

张龙祥 发布于 2017-02-19

一、朴素贝叶斯分类的R函数介绍 1、朴素贝叶斯分类算法的实现函数 R中的e1071包中的naiveBayes()函数可以实现朴素贝叶斯算法,具体的函数格式如下: naiveBayes(x, y, laplace=0) 常用变量具体的参数解释如下: naiveBayes(formu...

阅读(103)评论(0)赞 (0)

大数据

大规模机器学习:将数据科学引入生产系统架构的典型模式

10

xsmile 发布于 2017-02-17

from 网络 文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典型模式。想了解更多的大规模复杂数据分析的内容,可以查看Mikio Braun的培训视频《大规模机器学...

阅读(91)评论(0)赞 (0)

大数据

关于机器学习的领悟与反思

xsmile 发布于 2017-02-17

 作者介绍  张志华 北京大学数学学院教授,北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域的教学与科研工作。 ◆ ◆ ◆ ◆ 近年来,人工智能的强势崛起,特别是去年AlphaGo和韩国九段棋手李世石的人机大战,让我们深刻地领略...

阅读(186)评论(0)赞 (1)

资讯

朴素贝叶斯的理解

10

张龙祥 发布于 2017-02-16

一、统计学基础知识(虽然枯燥,但是硬着头皮也要看) 二、基于朴素贝叶斯定理的条件概率 三、朴素贝叶斯分类的工作流程 四、朴素贝叶斯分类中需要注意的问题 ⑴假设条件:每一个属性值在给定类上面的影响是独立于其他属性的,也就是说属性与属性之间是相互独立的,称之为“类条件独立性”。 ⑵如...

阅读(222)评论(0)赞 (0)

大数据

大数据时代的 9 大Key-Value存储数据库

9

xsmile 发布于 2017-02-15

from http://www.iteye.com/news/27628 在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了TB量级的数据。各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限。 一个解决方案是使用键值(K...

阅读(135)评论(0)赞 (0)

大数据

15个开源的顶级人工智能工具

15

xsmile 发布于 2017-02-14

from 51cto 人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到...

阅读(226)评论(0)赞 (0)

统计学

通俗理解T检验与F检验的区别

xsmile 发布于 2017-02-08

from http://blog.sina.com.cn/s/blog_4ee13c2c01016div.html 1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所...

阅读(224)评论(0)赞 (1)

统计学

四格表统计中该用Fisher确切概率法还是卡方检验?

1

xsmile 发布于 2017-02-06

from http://kysj.amegroups.com/articles/3036 前段时间帮一位朋友处理了一篇论文的数据,遇见一个比较典型的问题,与大家分享下。 为便于说明情况,我将这位朋友做的课题简要介绍下:比较两种方法(方法A和方法B)治疗某种疾病的效果,设计的细节就...

阅读(193)评论(0)赞 (1)

数据&电子书

国内可用免费语料库

xsmile 发布于 2017-02-02

from http://www.cnblogs.com/mo-wang/p/4444858.html (一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时...

阅读(637)评论(0)赞 (1)