こんにちわ!壮絶な鼻づまりから間もなく春の到来が予測されます!
ソリューション事業部のテラダです。
このDAブログは2007/03/26から開始してまもなく4年目に突入し、今回で725記事目ということになるのですが、
今朝、同じ部署の井上さんと「DAブログって案外神戸の情報とか充実してるんじゃない?」という話がありまして
調べてみました!
つまりDAブログをひとつのコンテンツと考えた場合にどんな偏りがあるかってことですね。
いちばん充実しているのは神戸情報なのか、エクステリアに関することなのか、はたまたラーメンか。
手順としては、
1.DAブログの724記事のテキストをぶっこ抜く
↓
2.形態素解析のライブラリを利用して一般名詞を抽出
↓
3.集計(突然の思いつきなので人力です。。)
1.DAブログの724記事のテキストをぶっこ抜く
現在DAブログは145ページのインデックスがあるので、その中から記事部分のHTMLをパースして
出力する以下のようなrubyスクリプトを用意しました。
# coding:utf-8 require 'nokogiri' require 'open-uri' require 'kconv' class DAblogBukkonuki BLOG_URI="http://www.d-a.co.jp/staff/" PAGE_FORMAT="index.php?blogid=2&page=" PAGE_COUNT=145 def initialize uri=BLOG_URI+PAGE_FORMAT docs=html_open(PAGE_COUNT,uri) contents=html_parse(docs) end def html_open(count,uri) docs=[] (1..count).each do |i| docs[i]=open(uri+i.to_s).read.toutf8 end docs end def html_parse(docs) docs.each do |data| html_data=Nokogiri::HTML(data) html_data.search("div#content").each do |val| p val.search("h2","div.text").text end end end end DAblogBukkonuki.new
文字数をカウントしてみると428,353文字。
原稿用紙1000枚以上と考えると感慨深いですねー!
続いて
2.形態素解析のライブラリを利用して一般名詞、固有名詞を抽出
形態素解析についてはwikipediaが詳しいですが、
実際に、昨日の秋山さんの一段落目を解析してみると以下のようになります。
こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
、 記号,読点,*,*,*,*,、,、,、
内定 名詞,サ変接続,*,*,*,*,内定,ナイテイ,ナイテイ
者 名詞,接尾,一般,*,*,*,者,シャ,シャ
アルバイター 名詞,一般,*,*,*,*,アルバイター,アルバイター,アルバイター
の 助詞,連体化,*,*,*,*,の,ノ,ノ
秋山 名詞,固有名詞,人名,姓,*,*,秋山,アキヤマ,アキヤマ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
今回はMeCabという形態素解析エンジンを使用して428,353文字の品詞を判別して一般名詞、固有名詞を抽出していきます。
3.集計
追記:3/17集計結果発表
品詞別にわけた場合に30万語ほどになり、そこから集計ランキングにふさわしい固有名詞を抽出した
9000語を集計しました。
ではさらっとTOP10の発表です!
1.[“デジアラ”, 360]
2.[“神戸”, 148]
3.[“仕事”, 143]
4.[“カシマ”, 139
5.[“ラーメン”, 138]
6.[“誕生”, 125]
7.[“入社”, 108]
8.[“釣り”, 100]
9.[“面接”, 95]
10.[“子供”, 90]
でした!
総括としましては、この調子でがんばればラーメン情報が充実した企業ブログとしていい線を狙えると思われます。
思いのほか集計に手こずったのですが、だからといってその結果が面白いかどうかはまた別の話ですね。
また次回ブログ当番の際にネタに困ったら、時系列にあわせて傾向を分析してデジアランの生態に深く切り込みたいと思います。