DoError

愛知県在住・オイカワのテンカラ修行中・PC自作マニア

EXCEL VBAでテキストマイニング

EXCEL VBAテキストマイニング

f:id:UbuntuSpirit:20200607183152j:plain

前回Vectorで紹介されているソフトをEXCELでデーター化しました。

 

新たに EXCEL VBA の BLOGを別に作りました。

今後、EXCELVBAで出来る事をこちらの UbuntuSpirit でご紹介していきますのご興味がございましたら覗いてみてください。

ubuntuspirit.hatenablog.com

 

今回はそのデーターを分析していきたいと思います。

 

目的

一番使われている単語を探すことで世間から求められていれてるExcelのソフトとはなにか、を探りたいと思います。

 

仕様

漢字・ひらがな・カタカナ・ローマ字の2文字以上続く単語をピックアップ。

出現回数を集計します。

 

データ数:614行

項目:商品名と詳細の2項目

 

データは商品名と詳細に分かれています。それぞれ別々に調べたいと思います。

意味不明なものは省きます。

 

結果

商品名の1位から17位

ツール 53
アドイン 29
シート 22
セル 19
CSV 13
変換 13
XLS 10
比較 9
関数 9
VBA 8
画像 8
SuperXLe 7
分割 7
検索 7
管理 7
定義関数 7
Print 7

詳細の1位から15位

セル 92
シート 89
アドイン 71
ブック 34
ツール 27
検索 26
画像 25
出力 25
選択 25
関数 24
CSV 24
変換 22
フォルダ 21
文字列 21
文字 20

 

左が単語 右が出現回数

同じ事を違う表現を使っている場合もあるのですが、今回は考慮していません。

 

作業途中、関数が入ったままクリアとペーストをしたのですが、行数が多いとCPU100%使用まで行きました。

 

f:id:UbuntuSpirit:20200607181100j:plain

これ、スペックが低いとアウトのパターンです。この状態でもEXCEL以外はちゃんと動いていました。

 

f:id:UbuntuSpirit:20200607181356j:plain

EXCELで24スレッド表示初めて見ました。(右下)自作PCがちゃんと動いていることの確認出来てよかったです。XEON✖2 は強い。

結果としてはツール系のセルやシートを操作・比較・検索するものや、アドインソフト、CSV、画像、文字列と言ったものが多いように思えます。

 

処理をもっと細かくすれば、セルの操作やシートの操作といった感じで抽出も出来ます。この辺はプログラミング次第です。