标签:数据挖掘

数据挖掘

淘宝吴雪军:自然语言处理技术在搜索和广告中的应用

1

xsmile 发布于 2017-02-25

本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下: 我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网产品,它们前端都非常简单,但后台系统架构极其复杂。 今天主要讲三个方面的内容:第一、主要...

阅读(10)评论(0)赞 (0)

大数据

大规模机器学习:将数据科学引入生产系统架构的典型模式

10

xsmile 发布于 2017-02-17

from 网络 文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典型模式。想了解更多的大规模复杂数据分析的内容,可以查看Mikio Braun的培训视频《大规模机器学...

阅读(91)评论(0)赞 (0)

大数据

15个开源的顶级人工智能工具

15

xsmile 发布于 2017-02-14

from 51cto 人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到...

阅读(226)评论(0)赞 (0)

数据挖掘

tensorflow学习笔记五:mnist实例–卷积神经网络(CNN)

xsmile 发布于 2017-01-23

mnist的卷积神经网络例子和上一篇博文中的神经网络例子大部分是相同的。但是CNN层数要多一些,网络模型需要自己来构建。 程序比较复杂,我就分成几个部分来叙述。 首先,下载并加载数据: import tensorflow as tf import tensorflow.examp...

阅读(212)评论(0)赞 (0)

Python

tensorflow学习笔记四:mnist实例–用简单的神经网络来训练和测试

3

xsmile 发布于 2017-01-23

刚开始学习tf时,我们从简单的地方开始。卷积神经网络(CNN)是由简单的神经网络(NN)发展而来的,因此,我们的第一个例子,就从神经网络开始。 神经网络没有卷积功能,只有简单的三层:输入层,隐藏层和输出层。 数据从输入层输入,在隐藏层进行加权变换,最后在输出层进行输出。输出的时候...

阅读(222)评论(0)赞 (0)

数据分析

互信息

2

xsmile 发布于 2017-01-23

互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。 平均互信息量定义:     互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机...

阅读(188)评论(0)赞 (0)

数据挖掘

一文学会用 Tensorflow 搭建神经网络

13

xsmile 发布于 2017-01-16

本文是学习这个视频课程系列的笔记,课程链接是 youtube 上的, 讲的很好,浅显易懂,入门首选, 而且在github有代码, 想看视频的也可以去他的优酷里的频道找。 Tensorflow 官网 神经网络是一种数学模型,是存在于计算机的神经系统,由大量的神经元相连接并进行计算,...

阅读(958)评论(0)赞 (8)

数据分析

决策树的剪枝理论

4

xsmile 发布于 2017-01-11

剪枝理论,决策树的剪枝在上一节中没有仔细讲,趁这个机会学习了剪枝的基础理论,这里会详细学习。 决策树为什么(WHY)要剪枝?原因是避免决策树过拟合(Overfitting)样本。前面的算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都...

阅读(472)评论(0)赞 (2)

数据分析

决策树剪枝

26

xsmile 发布于 2017-01-11

from http://www.cnblogs.com/yonghao/p/5064996.html 什么是剪枝? 剪枝是指将一颗子树的子节点全部删掉,根节点作为叶子节点,以下图为例:   为甚么要剪枝? 决策树是充分考虑了所有的数据点而生成的复杂树,有可能出现过拟合的...

阅读(236)评论(0)赞 (1)

R

需求预测我喜欢用ARIMA模型

25

xsmile 发布于 2017-01-09

本文结构: 时间序列分析? 什么是ARIMA? ARIMA数学模型? input,output 是什么? 怎么用?-代码实例 常见问题? 时间序列分析? 时间序列,就是按时间顺序排列的,随时间变化的数据序列。 生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,...

阅读(474)评论(0)赞 (0)

数据挖掘

TensorFlow 入门

3

xsmile 发布于 2017-01-03

CS224d-Day 2: 在 Day 1 里,先了解了一下 NLP 和 DP 的主要概念,对它们有了一个大体的印象,用向量去表示研究对象,用神经网络去学习,用 TensorFlow 去训练模型,基本的模型和算法包括 word2vec,softmax,RNN,LSTM,GRU,C...

阅读(265)评论(0)赞 (0)

数据挖掘

【十大经典数据挖掘算法】SVM

2

xsmile 发布于 2016-12-29

SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(linear SVM in linearly separable case)的线...

阅读(193)评论(0)赞 (0)

数据挖掘

【十大经典数据挖掘算法】k-means

3

xsmile 发布于 2016-12-28

1. 引言 k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。 聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓“物以类...

阅读(209)评论(0)赞 (1)