标签:文本挖掘

数据挖掘

97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)

7

xsmile 发布于 2016-11-22

摘要 深度学习当前在NLP领域发展也相当快,翻译,问答,摘要等基本都被深度学习占领了。 本文给出基于深度学习的中文分词实现,借助大规模语料,不需要构造额外手工特征,在2014年人民日报语料上取得97.5%的准确率。模型基本是参考论文:http://www.aclweb.org/a...

阅读(458)评论(0)赞 (3)

数据挖掘

TF-IDF与余弦相似性的应用

19

xsmile 发布于 2016-08-29

一 自动提取关键词 作者: 阮一峰 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处...

阅读(558)评论(0)赞 (0)

数据挖掘

用R进行文本挖掘与分析:分词、画词云

3

xsmile 发布于 2016-03-17

要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。比如下图: 这是根据总理2014年的政府工作报告制作的可视化词云,分词和...

阅读(1083)评论(0)赞 (0)

数据挖掘

金融行业的数据挖掘实践

3

xsmile 发布于 2015-08-18

本文根据工商银行技术经理张佶在ArchSummit深圳2015大会的演讲整理而成,略有修改,感兴趣的读者可以关注10月份QCon上海2015大会的精彩内容。 工商银行文本挖掘技术应用探索分享 工商银行在大家传统的印象当中是一个体形非常庞大但是稳步前行的形象,但是近些年来在大数据的...

阅读(705)评论(0)赞 (0)