阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Ubuntu下安装Stanford CoreNLP

82次阅读
没有评论

共计 1314 个字符,预计需要花费 4 分钟才能阅读完成。

Stanford CoreNLP 提供了一系列自然语言分析工具。它能够给出基本的词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词,并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同样的实体,指明情绪,提取发言中的开放关系等。

Ubuntu 下安装 Stanford CoreNLP

很多自然语言处理的任务都需要 stanfordcorenlp 将进行文本处理。在 Linux 环境下安装 stanfordcorenlp 也比较简单。

首先需要安装 Java 运行环境,以 Ubuntu 12.04 为例,安装 Java 运行环境仅需要两步:

sudo apt-get install default-jre
sudo apt-get install default-jdk12

然后下载 Stanford coreNLP 包:

wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip
unzip stanford-corenlp-full-2018-02-27.zip
cd stanford-corenlp-full-2018-02-27/12345

也可以去 stanford corenlp 的官网上去下载安装包,windows 跟 linux 下都是一样的。

配置环境变量:
我们需要 Stanford corenlp 来把数据分词。
把下列这行代码加到你的.bashrc 里面 (vim .bashrc)

export CLASSPATH=/path/to/stanford-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar1

把 /path/to/ 替换为你保存 stanford-corenlp-full-2016-10-31 的地方的路径
安装:

sudo pip3 install stanfordcorenlp1

这里如果你使用 python2,就需要

sudo pip2 install stanfordcorenlp1

处理中文还需要下载中文的模型 jar 文件,然后放到 stanford-corenlp-full-2018-02-27 根目录下即可

wget http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar1

如何检查自己是否装好了 stanfordcorenlp
进入 python2 或者 python3

python2
from stanfordcorenlp import StanfordCoreNLP123

能成功导入不报错,就是安装成功了。
最后检查是否能正常使用:
运行下列代码:

echo "Please tokenize this text." | java edu.stanford.nlp.process.PTBTokenizer1

你会看到下列输出:

Please
tokenize
this
text
.
PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.123456

这样就安装成功了。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计1314字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中