软件

R语言之Apriori算法应用

3

xsmile 发布于 2017-05-14

from http://www.cnblogs.com/dm-cc/p/5737147.html 一. 概念 关联分析用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则(association rule)或频繁项集的形式表示。 项集:在关联分析中,包含0个或多个...

阅读(251)评论(0)赞 (1)

信用卡评分模型(R语言)

18

xsmile 发布于 2017-05-09

from http://blog.csdn.net/csqazwsxedc/article/details/51225156 信用卡评分 2016年1月10日 一、数据准备 1、 问题的准备 •            目标:要完成一个评分卡,通过预测某人在未来两年内将会经历财务危...

阅读(795)评论(0)赞 (7)

偏最小二乘法介绍及应用

1

xsmile 发布于 2017-04-30

本文由一起大数据网整理,转载请保留原文链接。 为了更好的理解PLS,推荐大家先学习回归分析、典型相关分析和主成分分析相关知识内容(这些内容在SPSS视频教程里都有)。 第一部分:概念与诊断(来自百度百科) 偏最小二乘法,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简...

阅读(373)评论(0)赞 (3)

SAS聚类分析

3

xsmile 发布于 2017-04-12

from http://blog.163.com/zzz216@yeah/blog/static/16255468420121105146675/ 1 用CLUSTER过程和TREE过程进行谱系聚类 一、CLUSTER过程用法 CLUSTER过程的一般格式为: PROC CLUS...

阅读(386)评论(0)赞 (0)

SAS回归分析

2

xsmile 发布于 2017-04-12

from http://blog.163.com/zzz216@yeah/blog/static/16255468420121665447465/ 1.用SAS/INSIGHT进行曲线拟合    拟合回归直线,“analyse-fit”,选择相应的自变量和因变量,既可以自动拟合出...

阅读(513)评论(0)赞 (1)

SAS多变量分析-因子分析

4

xsmile 发布于 2017-04-11

from http://blog.163.com/zzz216@yeah/blog/static/16255468420121105745404/ FACTOR过程使用 SAS/STAT的FACTOR过程可以进行因子分析、分量分析和因子旋转。对因子模型可以使用正交旋转和斜交旋转,...

阅读(457)评论(0)赞 (1)

PostgreSQL 性能优化

xsmile 发布于 2017-03-10

from http://blog.sina.com.cn/s/blog_681cd80d0100md5o.html postgresql 优化与维护 1. 硬件 数据库最重要的就是 I/O了。所以一切从I/O开始。 RAID: 这个基本不用说,数据库放RAID10上面,只读的备份...

阅读(650)评论(0)赞 (1)

Postgresql数据库的一些字符串操作函数

xsmile 发布于 2017-03-06

今天做项目遇到客户反映了一个麻烦的事情,有一些数据存在,但就是在程序中搜索不出来,后来分析,发现问题为数据前面有几个空白字符,后来用SQL查询了一下,发现八九个数据表中,数千万条数据中有将近三百万条数据存在相同的问题,本想着在查询时添加匹配符’%’,后来试...

阅读(311)评论(0)赞 (0)

PostgreSQL 性能调优

xsmile 发布于 2017-03-04

from http://www.mutouxiaogui.cn/blog/?p=413 批量导入性能优化 关闭自动提交 在批量插入数据时,如果每条数据都被自动提交,当中途出现系统故障时,不仅不能保障本次批量插入的数据一致性,而且由于有多次提交操作的发生,整个插入效率也会受到很大的...

阅读(663)评论(0)赞 (1)

使用sklearn优雅地进行数据挖掘

18

xsmile 发布于 2017-03-04

from http://www.cnblogs.com/jasonfreak/p/5448462.html 目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术 2 并行处理 2.1 整体并行处理 2.2 部分并行处理 3 流水线处...

阅读(793)评论(0)赞 (2)

postgresql—-COPY之表与文件之间的拷贝

2

xsmile 发布于 2017-03-02

from http://www.cnblogs.com/alianbog/p/5621660.html postgresql提供了COPY命令用于表与文件(和标准输出,标准输入)之间的相互拷贝,copy to由表至文件,copy from由文件至表。 示例1.将整张表拷贝至标准输...

阅读(299)评论(0)赞 (0)

修改postgres密码

xsmile 发布于 2017-03-01

阅读目录 1. 修改PostgreSQL数据库默认用户postgres的密码 2. 修改linux系统postgres用户的密码 1. 修改PostgreSQL数据库默认用户postgres的密码 PostgreSQL数据库创建一个postgres用户作为数据库的管理员,密码随机...

阅读(282)评论(0)赞 (0)

Python 的十个自然语言处理工具

xsmile 发布于 2017-02-25

from http://www.kawabangga.com/posts/1264 1.NLTK NLTK 在使用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的接口,以及分类、分词、词干提取、标注、语法分析、语义推理等类库。 ...

阅读(758)评论(1)赞 (0)

SAS CTO告诉你统计建模、机器学习与人工智能的区别

2

xsmile 发布于 2017-02-22

关于统计建模、机器学习与人工智能之间的关系和区别,近来无论是在国内外像知乎一类的知识网站上,还是在业内业外爱好者的线下活动组织间,都引发了激烈讨论。今天,SAS首席技术官  Oliver Schabenberger 先生为我们带来了他的见解,希望能对各位小伙伴们有一些启发。 统计...

阅读(668)评论(0)赞 (0)

运用SAS文本分析,海量资料秒分析

3

xsmile 发布于 2017-02-22

我们常常会因为会议笔记内容过多难以归整而发愁?会因为论文众多却无暇浏览而苦恼?会因为短时间内处理巨大数据而绝望?面对这些困扰,SAS北京研发中心分析产品开发部总监高燕女士运用SAS文本分析,通过两个实验快速有效分析IALP大会论文。我们看看她是如何做到的? 不久前,我参加了在台湾...

阅读(545)评论(0)赞 (2)

分析大师系列:商业智能的前世今生

7

xsmile 发布于 2017-02-22

(一)从数据到智能 Google的首席经济学家 Hal Varian 在2010年指出“在接下来的岁月里,最时髦的工作将是统计学家…领悟数据的能力——理解数据、处理数据、提炼价值、可视化数据、沟通数据——必将成为一种极其重要的技能”。言犹在耳,大数据、数据可视化都已成了当下商业分...

阅读(382)评论(0)赞 (0)

网络爬虫框架Scrapy简介

14

xsmile 发布于 2017-01-24

一、 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本;它是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 网络爬虫分类: 通用网络爬虫 通用网络爬虫又称全网爬虫(Scalable W...

阅读(1130)评论(0)赞 (0)