「第2回Webスクレイピング勉強会@東京」に参加してきました

「第2回Webスクレイピング勉強会@東京」に参加してきました

第2回Webスクレイピング勉強会@東京に参加し、お手軽に未知語を探すアイディアについて発表してきました。

発表してきた内容

前回に引き続き、今回の勉強会でも発表させていただきました。発表資料は以下のURLにて公開しています。

発表内容はGoogleサジェストで得られた単語をChasen(形態素解析器)にかけ、未知語の場合はChasen辞書の登録エントリを作成する、というものです。

Googleサジェスト結果からChasen辞書を作成するスクリプト

発表時はデモの実演ができませんでしたが、作成したスクリプトGitHubで公開しています。シェルスクリプトで作成しており、Chasenwgetがインストールされている環境であれば動作するかと思います。
(自分の環境ではNetBSD-6.1-i386にて動作確認が取れています)

以下のような実行結果を得られます。

$ ./suggest2chadic.sh きるみ 
(品詞 (名詞 一般)) ((見出し語 (キルミーダンス 3641)) (読み キルミーダンス) (発音 キルミーダンス))
(品詞 (名詞 一般)) ((見出し語 (キルミーベイベー 3641)) (読み キルミーベイベー) (発音 キルミーベイベー))

まとめ

第2回Webスクレイピング勉強会@東京にて発表してきました。この勉強会は全3回の予定となっており、次回が最終回となるようです。Webスクレイピング勉強会 Season 2が決定したり、この勉強会での知見を活かした発展的な勉強会が開催されるとイイなと思いつつ、次回も楽しみにしています。

第1回Webスクレイピング勉強会@東京に参加してきました

第1回Webスクレイピング勉強会@東京に参加してきました

第1回Webスクレイピング勉強会@東京に参加してきました。

シェルスクリプトでスクフェス(スクレイピングフェスティバル)」というタイトルで、シェルスクリプトによるWebスクレイピングの方法について発表してきました。

発表スライドのURLは以下になります。

第2回Webスクレイピング勉強会@東京の開催も決定しており、次回も楽しみです。

補足事項

発表スライド内のスクレイピング手順例は、とある新聞社のデータに対するものです。

勉強会での発表時は今現在のスクレイピング手順を説明していましたが、Web上に公開している発表スライドについては、古いデータ(HTML内のフォーマットが少し異なっている)に対するスクレイピング手順に差し替えています。