大数据

大规模机器学习:将数据科学引入生产系统架构的典型模式

10

xsmile 发布于 2017-02-17

from 网络 文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典型模式。想了解更多的大规模复杂数据分析的内容,可以查看Mikio Braun的培训视频《大规模机器学...

阅读(90)评论(0)赞 (0)

关于机器学习的领悟与反思

xsmile 发布于 2017-02-17

 作者介绍  张志华 北京大学数学学院教授,北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域的教学与科研工作。 ◆ ◆ ◆ ◆ 近年来,人工智能的强势崛起,特别是去年AlphaGo和韩国九段棋手李世石的人机大战,让我们深刻地领略...

阅读(185)评论(0)赞 (1)

大数据时代的 9 大Key-Value存储数据库

9

xsmile 发布于 2017-02-15

from http://www.iteye.com/news/27628 在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了TB量级的数据。各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限。 一个解决方案是使用键值(K...

阅读(134)评论(0)赞 (0)

15个开源的顶级人工智能工具

15

xsmile 发布于 2017-02-14

from 51cto 人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到...

阅读(225)评论(0)赞 (0)

网络爬虫框架Scrapy简介

14

xsmile 发布于 2017-01-24

一、 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本;它是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 网络爬虫分类: 通用网络爬虫 通用网络爬虫又称全网爬虫(Scalable W...

阅读(313)评论(0)赞 (0)

腾讯亿级排行榜系统实践及挑战

18

xsmile 发布于 2016-11-21

一. 背景 排行榜满足了人的攀比、炫耀心理,几乎每个产品都会涉及。SNG增值产品部的QQ会员、QQ动漫、企鹅电竞、游戏赛事等大量业务都对排行榜有强烈需求,特别是企鹅电竞等业务的发展壮大对我们排行榜系统提出了更多要求和挑战。在过去的一年中,排行榜系统从无到有,接入的业务从单一的QQ...

阅读(233)评论(0)赞 (1)

神经网络浅讲:从神经元到深度学习

45

xsmile 发布于 2016-11-03

来自 http://www.cnblogs.com/subconscious/p/5058741.html   神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解...

阅读(425)评论(0)赞 (3)

从机器学习谈起

22

xsmile 发布于 2016-11-02

来自 http://www.cnblogs.com/subconscious/p/4107357.html     在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发...

阅读(326)评论(0)赞 (5)

TensorFlow深度学习,一篇文章就够了

11

xsmile 发布于 2016-09-30

作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者。 TensorFlow深度学习框架 Google不仅是大数据和云计算的领导者,在机器学习和深度学习上也有很好的实践和积累,在2015年年底开源了内部使用的深度学习框架TensorFlow。 与Caffe...

阅读(939)评论(0)赞 (3)

面试干货!21个必知数据科学面试题和答案

16

xsmile 发布于 2016-08-08

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。  ...

阅读(1111)评论(1)赞 (4)

大数据产品-腾讯信鸽之手游流失预测

3

xsmile 发布于 2016-08-08

        背景         随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住用户,获得更大的收益。在游戏运营中,无论是流失挽留,还是拉新,以及付费用户预测都是游戏运营的重要内容。       ...

阅读(769)评论(1)赞 (0)

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

3

xsmile 发布于 2016-07-27

腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共同好友计算。这标志着QQ千亿级别的关系链计...

阅读(1084)评论(0)赞 (0)

腾讯推荐—让您的系统瞬间个性化

9

xsmile 发布于 2016-07-26

腾讯推荐 “腾讯推荐”是腾讯大数据近期大力打造的开放服务平台,旨在集业务接入、数据上报、算法计算、实时推荐和效果监控于一体,对外提供全自动实时精准推荐服务。 腾讯推荐官网: tuijian.qq.com 推荐是什么? 文章中提到的推荐均是指在海量的物品中自动为用户选取到感兴趣或合...

阅读(1062)评论(0)赞 (0)

微信公众号广告点击率预估效果优化

8

xsmile 发布于 2016-07-26

来自 腾讯大数据 1.背景? 点击率预估(pCTR)是广告投放过程中的一个重要环节,精准的点击率预估对于广告投放系统收益最大化具有重要意义。pCTR的优化主要有算法优化,系统改进,特征探索等几种途径。2015年下半年微信公众号位置,在引入了多种新特征,优化已有特征的准确度和覆盖率...

阅读(1019)评论(0)赞 (0)

面向高维度的机器学习计算框架-Angel

6

xsmile 发布于 2016-07-26

来自腾讯大数据 简介   为支持超大维度机器学习模型运算,腾讯数据平台部与香港科技大学合作开发了面向机器学习的分布式计算框架——Angel 1.0。 Angel是使用Java语言开发的专有机器学习计算系统,用户可以像用Spark, MapReduce一样,用它来完成机器...

阅读(899)评论(0)赞 (1)

三款大数据工具比拼,谁才是真正的王者

1

xsmile 发布于 2016-07-14

来自 http://tech.it168.com/a2016/0707/2772/000002772570.shtml 【IT168 翻译】业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了。这个说法有点...

阅读(939)评论(0)赞 (1)

开源跨平台的Postgresql桌面客户端:SQL Tabs

3

xsmile 发布于 2016-07-06

SQL Tabs是一个开源跨平台的Postgresql桌面客户端。 1、数据库浏览器 2、富脚本输出 3、从查询结果生成图表 4、Markdown渲染 5、白天和黑夜主题 6、经典和vim编辑模式 官方网站:http://www.sqltabs.com 内容多来自网络,如有侵权,...

阅读(1257)评论(0)赞 (1)