まず,MeCabnのpython用バインディングがあるのでaptでインストールします.
sudo apt-get install python-mecab
そうしたら,あとは以下のコードで分かち書きできます.(NLTK使ったほうが楽かも)
#! /usr/bin/env python # encoding=utf-8 import MeCab def getTokens(text) : m = MeCab.Tagger() n = m.parseToNode(text.encode('euc-jp', 'ignore')) n = n.next tokens = [] while n: word = n.surface.decode('euc-jp', 'ignore') tokens.append(word) n = n.next return tokens if __name__ == '__main__' : for token in getTokens(u'今日は本当に天気のいい日だ') : print token # output #今日 #は #本当に #天気 #の #いい #日 #だ #