nltk 之 snowball 提取词干
呆板进修中很重要的应用场景就是呆板自动分类,而分类的要害是词干提取。所以我们要用到snowball。下面说一下snowball 提取词干的两种要领。两种要领:要领一:
>>> from nltk import SnowballStemmer >>> SnowballStemmer.languages # See which languages are supported ('danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese", 'romanian', 'russian', 'spanish', 'swedish') >>> stemmer = SnowballStemmer("german") # Choose a language >>> stemmer.stem(u"Autobahnen") # Stem a word u'autobahn'
可是当你知道你利用的语言场景的时候可以利用下面的要领直接挪用:
要领二:
>>> ps = nltk.stem.snowball.PortugueseStemmer() >>> ps.stem('celular') u'celul' >>> ps.stem('celular') u'celul'