大数据

腾讯亿级排行榜系统实践及挑战

18

xsmile 发布于 2016-11-21

一. 背景 排行榜满足了人的攀比、炫耀心理,几乎每个产品都会涉及。SNG增值产品部的QQ会员、QQ动漫、企鹅电竞、游戏赛事等大量业务都对排行榜有强烈需求,特别是企鹅电竞等业务的发展壮大对我们排行榜系统提出了更多要求和挑战。在过去的一年中,排行榜系统从无到有,接入的业务从单一的QQ...

阅读(169)评论(0)赞 (1)

神经网络浅讲:从神经元到深度学习

45

xsmile 发布于 2016-11-03

来自 http://www.cnblogs.com/subconscious/p/5058741.html   神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解...

阅读(303)评论(0)赞 (3)

从机器学习谈起

22

xsmile 发布于 2016-11-02

来自 http://www.cnblogs.com/subconscious/p/4107357.html     在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发...

阅读(264)评论(0)赞 (5)

TensorFlow深度学习,一篇文章就够了

11

xsmile 发布于 2016-09-30

作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者。 TensorFlow深度学习框架 Google不仅是大数据和云计算的领导者,在机器学习和深度学习上也有很好的实践和积累,在2015年年底开源了内部使用的深度学习框架TensorFlow。 与Caffe...

阅读(768)评论(0)赞 (3)

面试干货!21个必知数据科学面试题和答案

16

xsmile 发布于 2016-08-08

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。  ...

阅读(1021)评论(1)赞 (4)

大数据产品-腾讯信鸽之手游流失预测

3

xsmile 发布于 2016-08-08

        背景         随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住用户,获得更大的收益。在游戏运营中,无论是流失挽留,还是拉新,以及付费用户预测都是游戏运营的重要内容。       ...

阅读(693)评论(1)赞 (0)

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

3

xsmile 发布于 2016-07-27

腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共同好友计算。这标志着QQ千亿级别的关系链计...

阅读(980)评论(0)赞 (0)

腾讯推荐—让您的系统瞬间个性化

9

xsmile 发布于 2016-07-26

腾讯推荐 “腾讯推荐”是腾讯大数据近期大力打造的开放服务平台,旨在集业务接入、数据上报、算法计算、实时推荐和效果监控于一体,对外提供全自动实时精准推荐服务。 腾讯推荐官网: tuijian.qq.com 推荐是什么? 文章中提到的推荐均是指在海量的物品中自动为用户选取到感兴趣或合...

阅读(978)评论(0)赞 (0)

微信公众号广告点击率预估效果优化

8

xsmile 发布于 2016-07-26

来自 腾讯大数据 1.背景? 点击率预估(pCTR)是广告投放过程中的一个重要环节,精准的点击率预估对于广告投放系统收益最大化具有重要意义。pCTR的优化主要有算法优化,系统改进,特征探索等几种途径。2015年下半年微信公众号位置,在引入了多种新特征,优化已有特征的准确度和覆盖率...

阅读(921)评论(0)赞 (0)

面向高维度的机器学习计算框架-Angel

6

xsmile 发布于 2016-07-26

来自腾讯大数据 简介   为支持超大维度机器学习模型运算,腾讯数据平台部与香港科技大学合作开发了面向机器学习的分布式计算框架——Angel 1.0。 Angel是使用Java语言开发的专有机器学习计算系统,用户可以像用Spark, MapReduce一样,用它来完成机器...

阅读(855)评论(0)赞 (1)

三款大数据工具比拼,谁才是真正的王者

1

xsmile 发布于 2016-07-14

来自 http://tech.it168.com/a2016/0707/2772/000002772570.shtml 【IT168 翻译】业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了。这个说法有点...

阅读(876)评论(0)赞 (1)

开源跨平台的Postgresql桌面客户端:SQL Tabs

3

xsmile 发布于 2016-07-06

SQL Tabs是一个开源跨平台的Postgresql桌面客户端。 1、数据库浏览器 2、富脚本输出 3、从查询结果生成图表 4、Markdown渲染 5、白天和黑夜主题 6、经典和vim编辑模式 官方网站:http://www.sqltabs.com 内容多来自网络,如有侵权,...

阅读(1155)评论(0)赞 (1)

利用In-Database Analytics技术在大规模数据上实现机器学习的SGD算法

6

xsmile 发布于 2016-07-06

作者 梁堰波 徐伟辰 随着应用数据的增长,在大规模数据集上进行统计分析和机器学习越来越成为一个巨大的挑战。目前,适用于统计分析/机器学习的语言/库有很多,如专为数据分析用途而设计的R语言,Python语言的机器学习库Scikits,支持分布式环境扩展的有基于Map-Reduce实...

阅读(866)评论(0)赞 (2)

hive函数参考手册

金小贝 发布于 2016-07-06

转自:http://www.cnblogs.com/end/archive/2012/06/18/2553682.html 原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算...

阅读(756)评论(0)赞 (0)

“忘掉大数据”之“建模术”:数据挖掘要还原用户的生活场景

2

xsmile 发布于 2016-06-20

万物皆数据,数据藏大道。教你Know那些有趣、有用、有逼格的Data! 继续“术”篇,希望能更贴近实操。 “术”篇将包含数据收集、数据管理、建模、网站分析、个性化推荐、场景应用、数据升温理论等,这些都是笔者擅长的领域,在长期的实践过程中,形成了个人独特、务实的理解和方法。 建模无...

阅读(767)评论(0)赞 (9)

“忘掉大数据”之“法”:大数据修炼要五讲四美

2

xsmile 发布于 2016-06-20

万物皆有道,何为数据道;一切皆有法,何为数据法? 在“道”篇里面,笔者认为数据是人类对世界的观测,人们运用数据通过模型产生新的数据,影响人或者人工智能体的行动,继而观测,源源不断产生数据,循环往复,生生不息,推动人类社会进步。                           ...

阅读(714)评论(0)赞 (4)

忘掉大数据——万物皆数据,数据藏大道

xsmile 发布于 2016-06-20

作为公众号的开篇之作,自然以“忘掉大数据”为题,这既是我的主张也是十年实战大数据的感悟。作为道家行者,凡事喜欢探究本原,试图务实一些还原大数据的真相。   为什么要忘掉大数据?   是不是大数据无用?恰恰相反,大数据太有用了,大数据无处不在,它可以跟所有的应用...

阅读(688)评论(0)赞 (5)

大数据方向实习生到底该做些什么?

5

xsmile 发布于 2016-06-07

来源:挖数 大数据方向实习生到底该做些什么? 最近逃离学校在某大数据公司实习,虽然我不认为大数据像现在很多人说的那么邪乎,但是我认为互联网时代所带来的大量数据是很有价值的。所以便在这个公司做实习生,已经一个多星期了,都是做一些简单的搜索,排序,去重的活。excel就完全搞定了。每...

阅读(878)评论(0)赞 (14)

在PostgreSQL中用线性回归分析linear regression做预测

3

xsmile 发布于 2016-05-31

作者 德哥@Digoal 首选来个线性回归分析linear regression, 最小二乘法least-squares-fit的小故事(取自百度) : 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐...

阅读(688)评论(0)赞 (1)