-
NLP Chinese Corpus:大规模中文自然语言处理语料
中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在 2019 年初这个时点上,普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文…
-
TF-IDF与余弦相似性的应用(三):自动摘要
作者: 阮一峰 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯…
-
TF-IDF与余弦相似性的应用(二):找出相似文章
作者: 阮一峰 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,”Google新闻”在主新闻下方,…
-
TF-IDF与余弦相似性的应用(一):自动提取关键词
作者: 阮一峰 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extractio…
-
Topic Modeling with Gensim (Python)
by Selva Prabhakaran Topic Modeling is a technique to extract the hidden topics from large…
-
15套免费的自然语言处理NLP课程及经典教材
1、自然语言处理圣经—《自然语言处理综论》 2、视频课程《深度学习与自然语言处理-2018》 3、Natural Language Processing (NLP) 4…