ChaSenと久々のPerl site MONO

ChaSenと久々のPerl

　形態素解析をするにあたって、osx版のChaSen(perlモジュール)を使うことにしました。ただ、サーバーへのインストール方法がわからなかったので(苦笑)、ローカル環境で使ってます。本当はフリーで配布されてる「形態素解析もどき」を使おうと思ったんですが、文字コードがSHIFT_JISのためか解析結果が化けたりするのでやめました。
　それに、ChaSenの場合は漢字の読みや品詞まで解析してくれるので強力です。品詞が事前にわかれば、同じ品詞の別の言葉に置き換えることができますから。
　そんなわけで、久々にperlでスクリプトを書いてます。すっかり忘れてるかと思ったら、phpと構文が似ているので（正確にはphpがperlに似ている……ですが）何とか進んでます。それと、過去に書いた自分のスクリプトも、カンペー的存在でかなり役立ってます。消さないで良かった。
　ただこのChaSen、なぜか英語がすべて1つ1つのアルファベットとして解析されてしまいます。例えば「ABC」という羅列があったとすると、そのまま「ABC」と解析してほしいのに「A」「B」「C」とわけてしまうんですね。これはかなり厳しい。まあ、オプション指定すれば良いだけの話しなのかもしれませんが、やり方がわからない(苦笑)
　そこで、品詞情報を参照しつつ解析結果を修正する処理を追加。その結果、アルファベットや数字、記号等を1つのまとまりにすることに成功。これらが混在している場合も1つにしちゃいます。
　が、次の問題。半角スペースがなぜか弾かれる。例えば「site MONO」を解析させると「siteMONO」になってしまうんですね。で、調べてみたらChaSenの仕様とか……。しょうがないので、解析前に半角スペースを別の文字に置き換え、解析後に元に戻す処理を追加。ついでに半角の()が括弧ではなく未知語として認識されるのも修正。
　今わかっている今後の課題としては、文章中にクオーテーションマークが含まれてるとスクリプトが落ちるので、エスケープさせないとならないこと。そして「！？」等の一般記号を「！」「？」ではなく「！？」にすることですね。まあ、まだ先は長いです。

8/30/2006 23:59 note web

comments & TB (0)

trackback URL

comments & TB (0)

trackback URL

■ 関連記事 ■