1、安装引用结巴分词(jieba)
代码对 Python 2/3 均兼容
1) 全自动安装
easy_install jieba
或者
pip install jieba
或者
pip3 install jieba
2) 半自动安装
先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
3) 手动安装
将 jieba 目录放置于当前目录或者 site-packages
目录
4) 使用介绍
通过 import jieba
来引用
如果需要使用paddle
模式下的分词和词性标注功能,请先安装paddlepaddle-tiny
,pip install paddlepaddle-tiny==1.6.1
。
2、使用示例
python -m jieba news.txt > cut_result.txt
命令行选项:
使用:
python -m jieba [options] filename
结巴命令行界面。
固定参数:
filename :输入文件
可选参数:
-h, --help :显示此帮助信息并退出
-d [DELIM], --delimiter [DELIM]
使用 DELIM
分隔词语,而不是用默认的' / '
。
若不指定 DELIM
,则使用一个空格分隔。
-p [DELIM], --pos [DELIM]
启用词性标注;如果指定 DELIM
,词语和词性之间
用它分隔,否则用 _ 分隔
-D DICT, --dict DICT
使用 DICT
代替默认词典
-u USER_DICT, --user-dict USER_DICT
使用 USER_DICT 作为附加词典,与默认词典或自定义词典配合使用
-a, --cut-all
全模式分词(不支持词性标注)
-n, --no-hmm
不使用隐含马尔可夫模型
-q, --quiet
不输出载入信息到 STDERR
-V, --version
显示版本信息并退出
如果没有指定文件名,则使用标准输入。
--help 选项输出:
$> python -m jieba --help
官方文档:https://github.com/fxsjy/jieba
相关文档: