安装NLTK
NLTK是一个NLP工作平台,可以和一些NLP库配合使用。
激活虚拟环境,因为原本已经安装了 pyltp ,不想再开新的环境了…
继续安装:
1 | pip install numpy |
前两个是高性能数学计算软件包,第三个是网络包
作为一个非洲人,果然安装nltk
的过程并不顺利
报错信息:
1 | Could not find a version that satisfies the requirement nltk (from versions: ) |
切换成 conda 命令,居然好了…本非颇为不适
在pycharm新建一个项目,指定解释器,新建py文件,执行如下代码:
1 | import sys |
然后出现了 WinError10060错误 ,血统纯正。
只能手动下数据包了,git地址
后面的过程老是导入出错,卡了好久,把网上所有的方法试了一遍,最后居然是因为。。没有重启pycharm试试,之前一直在解释器中运行的,后来用脚本就可以了。也不知道是重启还是脚本的原因,反正数据本身是没有问题的,如果导入出错,一定是路径设置的不对!
把packages中的文件解压,文件件重命名为nltk_data
, 放在C 盘根目录下…是的,就是这么粗暴…
设置用户变量NLTK_DATA
C:\nltk_data
运行脚本
1 | import nltk |
导入LTP语言处理模型
之前已经安装过pyltp自然语言处理库, 这里只需要导入模型。 安装可参看之前写的
在ltp模型 下载v3.4.0.zip版本, 在KGQA目录下,修改ltp.py里的ltp模型文件的存放目录
分词
实现用的是CRF模型
测试代码
1 | import sys |
输出结果
1 | 晚秋|的|哀牢山|宛如|一个|成熟|的|睡美人|,|轻柔|的|晨风|从|身边|掠过|,|拂|遍|林海|奇峰|,|挽|起|霞霭|,|任|南迁|的|候鸟|洗礼|,|猿啸|与|松涛|齐鸣|,|青山|共|斜阳|万|里|。 |
词性标注及命名实体识别
词性标注依旧用的是CRF算法,遵从北大词性标注规范。
测试代码
1 | import sys |
识别出:
1 | 哀牢山/ns/S-Ns |
依存句法树
结合使用NLTK和LTP可以构造依存句法树
测试代码
1 | import sys |
会在NLTK中输出一个依存树的图,我就不贴图了。。不会传图。。