2019年2月10日日曜日

統計学(主成分分析、因子分析)

AI、機械学習(ロボティックス等他の分野でも)でデータをより良く取り扱う為に一見関係ない様な統計学のマンガを読み進めています。

統計学と言うと沢山のデータ群から数式を使って解析すると答えが導き出せると勝手に思っていましたが、そうでは無いのが主成分分析や因子分析です。
分析者が仮説を立ててデータを取得してその因果関係を計算式で求めるという今までの逆の考え方になります。

データを取り間違えると永遠に答えが出ない事になります。
(答え=データと目的に相関関係は無い)

つまりAIや機械学習に置いて良質なデータがあれば目的にあった結果が導き出せるといった事になります。
その中に良く無いデータ(目的に関係の無い)があると結果から答えが遠くなってしまいます。
良いデータから相関関係を数値化する式はあり、行列計算等である程度導き出せます。
A=Bでは無くA≒Bです。綺麗に割り切れる訳では無いので色々な手法があります。

アマゾンの講習でも最初の仮定で目的を達成する事は難しく、何度も再学習を繰り返すのはこの部分にあります。
つまりデータサイエンス≒統計学といったところでしょうか?

コンピューターがAIで人間を制覇する事は当面無さそうです。

AIは一つの学問から成り立っているのでは無く、コンピューティング、脳神経学、統計学等から成り立っているので一筋縄では行きません。もちろん統計学は重要ですが、それがすべてでも無いのも事実です。その理解無しに与えられた数式のプログラムを実行すれば答えが導き出せます。*ただし良いデータを使えばです。

厄介なのはその良いデータを見つける良い方法は無い事が今回の統計学で分かりました。
仮説を立てる分析をして導き出した変数(学習結果)に新しいデータ(未知のデータ)を代入して目的の結果になるかを検証する。間違っていれば仮説を立て直す分析する、検証するを繰り返します。

そうする事でその目的の為の魔法の変数が見つかるかも?分析者の腕次第。

現在これらの実践をしている人が勧めるこれらの本を読む意味が分かって来ました。
この後は回帰分析(最高気温からアイスティーの注文数を予測、お店の面積と最寄りの駅からの距離から新規出店の一ヶ月の売上を予測、喫煙本数と飲酒量からガンになる確率を予測)を読んで、ベイズ統計のマンガに行きます。

マンガですが、それなりの内容なのでとてもじゃないですが、統計学の本格的な本は読む気になりません。
ただデータを扱うには避けて通れない奥深い分野である事も分かりました。

最新技術はより複雑で幅広い分やに精通しないとどんどんブラックボックス化しそうです。

0 件のコメント:

コメントを投稿