pythonで日本語分かち書き

まず,MeCabnのpythonバインディングがあるのでaptでインストールします.

sudo apt-get install python-mecab

そうしたら,あとは以下のコードで分かち書きできます.(NLTK使ったほうが楽かも)

#! /usr/bin/env python
# encoding=utf-8

import MeCab

def getTokens(text) :
	m = MeCab.Tagger()
	n = m.parseToNode(text.encode('euc-jp', 'ignore'))
	n = n.next
	tokens = []
	while n:
		word =  n.surface.decode('euc-jp', 'ignore')
		tokens.append(word)
		n = n.next
	return tokens

if __name__ == '__main__' :
	for token in getTokens(u'今日は本当に天気のいい日だ') :
		print token
# output
#今日
#は
#本当に
#天気
#の
#いい
#日
#だ
#