j9九游会首页登录--信誉保证

用于天然言语处置的12大开源东西

开辟技能 2019/3/28

天然言语处置(NLP),为一切谈天呆板人,语音助理,展望文本以及其他浸透到j9九游生存中的语音/文本使用提供支持的技能,在已往几年中曾经有了长足的开展。本文为各人保举一些开源NLP东西,协助各人计划基于语音或文本的使用步伐。

一、Python东西

1. 天然言语东西包(NLTK)

天然言语东西包(NLTK)是最全功效的东西。它简直完成了你必要的任何NLP组件,如分类,标志化,剖析和语义推理。而且每种办法通常都有多个完成,因而你可以选择想要利用确实切算法或办法。它还支持多种言语。但它以字符串的情势表现一切数据,这关于复杂的架构很好,但很难利用某些初级功效。与其他东西相比,它的开展点慢。总的来说,这是一个很好的东西包,实用于必要特定算法组合的实行,探究和使用步伐。

2. SpaCy

SpaCy是NLTK的次要竞争敌手。在大少数状况下它速率更快,但每个NLP组件只要一个完成。别的,它将一切内容表现为工具而不是字符串,这简化了构建使用步伐的界面。这也有助于它与很多其他框架和数据迷信东西集成,因而你可以在更好天文解文本数据后实行更多操纵。但,SpaCy不支持与NLTK一样多的言语。它的确有一个复杂的界面,一组简化的选择和良好的文档,以及言语处置和剖析的种种组件的多个神经模子。总的来说,关于必要在消费中具有高功能而且不必要特定算法的新使用步伐来说,这是一个很好的东西。

SpaCy

3. TextBlob

TextBlob是NLTK的扩展。可以经过TextBlob以简化方法拜访很多NLTK函数,TextBlob还包括Pattern库中的功效。假如你方才开端,这大概是学习时利用的好东西,它可以在消费中用于不必要过分实行的使用步伐。总的来说,TextBlob在一切地方都利用,十分合适小型项目。

4. Textacy

Textacy也是一个很棒的东西。它利用SpaCy作为其中心NLP功效,但它处置了处置前后的少量事情。假如你计划利用SpaCy,也可以利用Textacy,如许就可以轻松地引入很多范例的数据,而无需编写分外的协助代码。

5. PyTorch-NLP

PyTorch-NLP曾经推出了一段工夫了,但它曾经有了一个巨大的社区。它是疾速原型制造的绝佳东西。它也常常经过最新的研讨举行更新,顶级公司和研讨职员曾经公布了很多其他东西来举行种种惊人的处置,比方图像变更。总体而言,PyTorch针对的是研讨职员,但它也可以用于原型和初始消费事情负载,并提供开始进的算法。在它之上创立的库也大概值得研讨。

二、Node东西

6. Retext

Retext是unified collective的一局部。Unified是一个容许多个东西和插件无效集成和协同事情的界面。Retext是一致东西利用的三种语法之一;其他是Markmark的Remark和HTML的Rehype。Retext没有公然它的很多底层技能,而是利用插件来完成你大概用NLP对准的后果。这很容易做一些事变,好比反省拼写,修复排版,检测心情,或确保复杂的插件可以读取文本。总的来说,假如你只必要完成某些事情而无需理解底层流程中的一切内容,那么这是一个精彩的东西和社区。

7. Compromise

Compromise一定不是最庞大的东西。假如你正在寻觅开始进的算法或最完备的体系,这大概不合适你。但,假如想要一个具有普遍功效而且可以在客户端运转的高功能东西,那么你应该看看Compromise。

8. Natural

Natural包括你在一样平常NLP库中大概希冀的大少数功效。它次要偏重于英语,但其他一些言语曾经提供,社区对其他奉献持开放态度。它支持标志化,词干化,分类,语音,术语频率——逆文档频率,WordNet,字符串类似性和一些变形。它大概与NLTK最具可比性,由于它试图将一切内容都包括在一个包中,但它更易于利用,而且纷歧定会合在研讨上。总的来说,这是一个十分完备的库,但它仍处于正开辟阶段,大概必要分外的底层完成知识才干完全无效。

9. Nlp.js

Nlp.js创建在其他几个NLP库之上,包罗Franc和Brain.js。它为NLP的很多组件提供了一个很好的界面,如分类,情绪剖析,词干,定名实体辨认和天然言语天生。它还支持多种言语,假如你方案利用非英语以外的其他言语,这将十分有效。总的来说,这是一个很棒的通用东西,它简化了与其他几个东西的接口。在你必要更壮大或更机动的功效之前,这大概会在你的使用步伐中临时利用。

三、Java东西

10. OpenNLP

OpenNLP由Apache Foundation托管,因而很容易将其集成到其他Apache项目中,如Apache Flink,Apache NiFi和Apache Spark。它是一个通用的NLP东西,涵盖了NLP的一切罕见处置组件,可以服从令行或使用步伐中用作库。它还普遍支持多种言语。总体而言,OpenNLP是一个功效壮大的东西,具有很多功效,而且假如你利用Java,则可以为消费事情负载做好预备。

11. StanfordNLP

Stanford CoreNLP是一组东西,提供统计NLP,深度学习NLP和基于规矩的NLP功效。曾经创立了很多其他编程言语绑定,因而可以在Java之外利用此东西。它是一个由精英研讨机构创立的十分壮大的东西,但它大概不是消费事情负载的最佳选择。此东西具有双重允许,具有贸易用处的特别允许。总的来说,这是一个很好的研讨和实行东西,但它大概会在消费体系中发生分外的本钱。

12. CogCompNLP

由伊利诺伊大学开辟的CogCompNLP也有一个具有相似功效的Python库。它可以用于当地或近程体系上的文本处置,这可以消弭当地设置装备摆设的宏大包袱。它提供处置功效,比方标志化,词性标志,分块,定名实体标志,词形复原,依赖和选区剖析以及语义脚色标志。总的来说,这是一个很好的研讨东西,它有许多你可以探究的组件。我不确定它关于消费事情负载能否很好,但假如你计划利用Java,那么值得实验。


中国· 上海

谷谷二维码
添加微信征询

### CopyRight©2009-2019 上海谷谷网络科技有限公司 All Rights Reserved.   

关于j9九游 | 联系j9九游