理论

GBDT+LR算法进行特征扩增

转自 http://blog.csdn.net/TwT520Ly https://blog.csdn.net/TwT520Ly/article/details/79769705 参考文献: https://blog.csdn.net/lil...

玩转会员数据分析系列之统计学

from http://www.woshipm.com/data-analysis/917862.html 玩转会员数据分析系列文章主要针对数据分析给大家普及一些基础知识以及在工作中经常会用到的数据分析方法和概念,帮助大家一起成长。 因为我...

使用Python进行描述性统计

from https://www.cnblogs.com/jasonfreak/p/5441512.html 目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数)...

蒙特卡洛方法到底有什么用

作者:saltriver 原文:https://blog.csdn.net/saltriver/article/details/52194918 蒙特卡洛方法(Monte Carlo method,也有翻译成“蒙特卡罗方法”)是以概率和统计...

中心极限定理通俗介绍

作者:朱曦炽 链接:https://www.jianshu.com/p/cb7145e4c4bd 中心极限定理是统计学中比较重要的一个定理。 本文将通过实际模拟数据的形式,形象地展示中心极限定理是什么,是如何发挥作用的。 什么是中心极限定理...

Python 数据分析基础小结

from https://www.cnblogs.com/WoLykos/p/9582920.html 一、数据读取 1、读写数据库数据 读取函数: pandas.read_sql_table(table_name, con, schema...

sklearn入门教程:分类、聚类、回归和降维

作者 zhouchen sklearn中的sk代表着scikit,就可以知道这是一个用于科研的工具包了,那么这个科研工具包种都包含了哪些内容呢? 下面这个图描述了sk-learn所覆盖的领域。 分类、聚类、回归和降维,基本的数据算法需求均有...

odds、OR和RR的计算公式和实际意义

from http://www.sohu.com/a/210568171_799723 1. Odds Odds 的意思为机率、可能性,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。假如某药物有疗效的比例为p1,则无效的比为1...

逻辑回归的通俗解释

1 逻辑回归的定位 首先,逻辑回归是一种分类(Classification)算法。比如说: 给定一封邮件,判断是不是垃圾邮件 给出一个交易明细数据,判断这个交易是否是欺诈交易 给出一个肿瘤检查的结果数据,判断这个肿瘤是否为恶性肿瘤 逻辑回归...

谈谈 Bias-Variance Tradeoff

准确是两个概念。准是 bias 小,确是 variance 小。准确是相对概念,因为 bias-variance tradeoff。 ——Liam Huang 在机器学习领域,人们总是希望使自己的模型尽可能准确地描述数据背后的真实规律。通俗...

通过关系网络进行欺诈检测和欺诈团伙发现

from https://blog.csdn.net/u010159842/article/details/80433354 近年来搞金融诈骗的越来越厉害啦,除了团伙化、组织化的趋势,有的居然每个月还有固定的推广费呢。那么,如何从数据的角度...

ML神器:sklearn的快速使用

from https://www.cnblogs.com/lianyingteng/p/7811126.html 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -&...

ARIMA模型原理及实现

from https://www.jianshu.com/p/305c4961ee06 1、数据介绍 再介绍本篇的内容之前,我们先来看一下本文用到的数据。本文用到的中国银行股票数据下载:http://pan.baidu.com/s/1gfx...

PLS偏最小二乘回归原理与应用

作者 Andrew.Du 出处:http://www.cnblogs.com/duye/p/9031511.html 一、前言 1.目的: 我写这篇文章的目的,是想用最简洁的语言阐述清楚何为偏最小二乘分析,以及到底应该如何应用这个在数学建模...

sklearn 的优雅数据挖掘流程

from https://blog.csdn.net/ma416539432/article/details/53510277 1)下载数据集,通过统计方法理解数据集,并可视化。 2)构建6个机器学习模型。从中选择最好的。 在下载并且安装好...

像小说一样有趣的算法入门书?

算法图解 内容简介 本书示例丰富,图文并茂,以简明易懂的方式阐释了算法,旨在帮助程序员在日常项目中更好地利用算法为软件开发助力。 前三章介绍算法基础,包括二分查找、大O 表示法、两种基本的数据结构以及递归等。 余下的篇幅将主要介绍应用广泛的...

使用Python自动提取内容摘要

  https://www.biaodianfu.com/automatic-text-summarizer.html利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不...