「第2回Webスクレイピング勉強会@東京」に参加してきました
「第2回Webスクレイピング勉強会@東京」に参加してきました
第2回Webスクレイピング勉強会@東京に参加し、お手軽に未知語を探すアイディアについて発表してきました。
発表してきた内容
前回に引き続き、今回の勉強会でも発表させていただきました。発表資料は以下のURLにて公開しています。
発表内容はGoogleサジェストで得られた単語をChasen(形態素解析器)にかけ、未知語の場合はChasen辞書の登録エントリを作成する、というものです。
Googleサジェスト結果からChasen辞書を作成するスクリプト
発表時はデモの実演ができませんでしたが、作成したスクリプトをGitHubで公開しています。シェルスクリプトで作成しており、Chasenとwgetがインストールされている環境であれば動作するかと思います。
(自分の環境ではNetBSD-6.1-i386にて動作確認が取れています)
- suggest2chadic.sh
以下のような実行結果を得られます。
$ ./suggest2chadic.sh きるみ (品詞 (名詞 一般)) ((見出し語 (キルミーダンス 3641)) (読み キルミーダンス) (発音 キルミーダンス)) (品詞 (名詞 一般)) ((見出し語 (キルミーベイベー 3641)) (読み キルミーベイベー) (発音 キルミーベイベー))
まとめ
第2回Webスクレイピング勉強会@東京にて発表してきました。この勉強会は全3回の予定となっており、次回が最終回となるようです。Webスクレイピング勉強会 Season 2が決定したり、この勉強会での知見を活かした発展的な勉強会が開催されるとイイなと思いつつ、次回も楽しみにしています。