EXCEL VBAでテキストマイニング
前回Vectorで紹介されているソフトをEXCELでデーター化しました。
今後、EXCELのVBAで出来る事をこちらの UbuntuSpirit でご紹介していきますのご興味がございましたら覗いてみてください。
今回はそのデーターを分析していきたいと思います。
目的
一番使われている単語を探すことで世間から求められていれてるExcelのソフトとはなにか、を探りたいと思います。
仕様
漢字・ひらがな・カタカナ・ローマ字の2文字以上続く単語をピックアップ。
出現回数を集計します。
データ数:614行
項目:商品名と詳細の2項目
データは商品名と詳細に分かれています。それぞれ別々に調べたいと思います。
意味不明なものは省きます。
結果
商品名の1位から17位
ツール 53
アドイン 29
シート 22
セル 19
CSV 13
変換 13
XLS 10
比較 9
関数 9
VBA 8
画像 8
SuperXLe 7
分割 7
検索 7
管理 7
定義関数 7
Print 7
詳細の1位から15位
セル 92
シート 89
アドイン 71
ブック 34
ツール 27
検索 26
画像 25
出力 25
選択 25
関数 24
CSV 24
変換 22
フォルダ 21
文字列 21
文字 20
左が単語 右が出現回数
同じ事を違う表現を使っている場合もあるのですが、今回は考慮していません。
作業途中、関数が入ったままクリアとペーストをしたのですが、行数が多いとCPU100%使用まで行きました。
これ、スペックが低いとアウトのパターンです。この状態でもEXCEL以外はちゃんと動いていました。
EXCELで24スレッド表示初めて見ました。(右下)自作PCがちゃんと動いていることの確認出来てよかったです。XEON✖2 は強い。
結果としてはツール系のセルやシートを操作・比較・検索するものや、アドインソフト、CSV、画像、文字列と言ったものが多いように思えます。
処理をもっと細かくすれば、セルの操作やシートの操作といった感じで抽出も出来ます。この辺はプログラミング次第です。