NLP [7]

【精品】NLP自然语言处理学习路线(知识体系)

本文根据自然语言处理主要的几个子领域及其包含的主要任务简单总结了一份NLP的学习路线,也可以说是知识体系。后续个人的技术文章也将主要围绕NLP去展开,大致也会按照这个路线去记录相关的基础知识、方法、技术、工具及实践案例等等。所以本文不仅仅是整理了一份学习路线,更是个人未来很长一段时间的学习规划。

文档处理与查询设计

本部分是web挖掘课程的一个作业,大部分是基于python实现的,而且就是nlp相关的操作,所以记录在这里了。

分词工具集成

本部分记录如何利用Python进行分词工具集成,集成工具可以实现运行无环境要求,同时也更方便。

Python实现LDA模型

lda主题模型文档主题生成模型(Latent Dirichlet Allocation,简称LDA)通常由包含词、主题和文档三层结构组成。

Jieba分词

Jiebajieba 是一个中文分词第三方库,被称为最好的 Python 中文分词库。支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持繁体分词和自定义词典。

词频统计与TF-IDF

TF-IDF和词频是脱不了关系的,所以在这里再记录一下关于词频的内容。其实在词云图那块儿就已经完成了词频统计,这里记录另一种方法,即利用NLTK包实现统计与可视化。

词云图制作

python实现词云python实现词云的方式有很多种,例如wordcloud包、pyecharts包、stylecloud包,这里主要介绍两种办法:调用pyecharts包画图调用stylecloud包画图pyecharts包画词云图明白要输入什么数据和怎么调整配置就行