2011-11-16から1日間の記事一覧

twitterのツイート時刻をパースする.

この記事でツイートの取得はできるようになりましたが,時刻のほうが文字列のままなので,ちょっと扱うのが大変です.そういうときはこうします. #! /usr/bin/env python # encoding=utf-8 import datetime def getTimeByTweet(tweet) : return datetime.da…

pythonで日本語分かち書き

まず,MeCabnのpython用バインディングがあるのでaptでインストールします. sudo apt-get install python-mecabそうしたら,あとは以下のコードで分かち書きできます.(NLTK使ったほうが楽かも) #! /usr/bin/env python # encoding=utf-8 import MeCab def…

pythonでtwitterのstreaming apiから日本語ツイートを取得する

basic認証だけで行けるので結構簡単です. getJapaneseTweetsは引数個の日本語ツイート(json)をsimplejsonで辞書に変換して,そのリストを返します. 文字参照をデコードし直してるのはツイート本文だけになってます. #! /usr/bin/env python # encoding=…

pythonで日本語判定

#! /usr/bin/env python # encoding=utf-8 import re def isJapanese(text) : return re.search(u'[ぁ-んァ-ヴ]', text) if __name__ == '__main__' : print isJapanese(u'aiueo') #=> None print isJapanese(u'あいうえお') #=> <_sre.SRE_Match object at 0x7ffb5926f370></_sre.sre_match>