百度LAC中文分词介绍及使用

LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。

该工具具有以下特点与优势:

  1. 效果好:通过深度学习模型联合学习分词、词性标注、专名识别任务,词语重要性,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果业内领先。
  2. 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率业内领先。
  3. 可定制:实现简单可控的干预机制,精准匹配用户词典对模型进行干预。词典支持长片段形式,使得干预更为精准。
  4. 调用便捷:支持一键安装,同时提供了Python、Java和C++调用接口与调用示例,实现快速调用和集成。
  5. 支持移动端: 定制超轻量级模型,体积仅为2M,主流千元手机单线程性能达200QPS,满足大多数移动端应用的需求,同等体积量级效果业内领先。

安装配置:

1.安装Python及PIP

2.通过PIP安装LAC

pip3 install lac

使用示例代码:

from LAC import LAC
lac = LAC(mode='lac')
text = '今天是个好日子,我们去爬山!'
words, tags = lac.run(text)
print(words)
print(tags)

输出结果:

['今天', '是', '个', '好日子', ',', '我们', '去', '爬山', '!']
['TIME', 'v', 'q', 'n', 'w', 'r', 'v', 'v', 'w']

其中,words为分词结果,tags为词性标注结果。t表示时间词,v表示动词,q表示量词,n表示名词,wp表示标点符号,r表示代词。

更多用法请参考 https://github.com/baidu/lac

Leave a Comment

豫ICP备19001387号-1