機械学習の基礎的な話とシン・オンシツヒョウカ

2020年の後半から、人工知能の研究を始め、2023年に画像認識AIを音質評価に用いるシン・オンシツヒョウカを自動車技術会・Inter–noiseで発表したわけですが、根本的なところ、機械学習がどうして、音質評価に役に立つと2020−2021年に思ったか？それをまとめたいと思います。

最初はプログラミング言語Pythonを学ぼうと始めたわけですが、学んでいるとPythonが主に使われている機械学習に出会ったわけです。機械学習の根幹の考え、この論理に私は衝撃を受けたわけです。従来のアルゴリズム、モデル化を打ち破る手法の機械学習。
まずは、従来のモデル化の考え方の限界をお話ししましょう。

図にもありますように、コンピューターのプログラムというのは、ルールを人が決めないといけないわけです。何でも良いのですが、ルールが分かれば、その条件に合うデータを入力すると正解がわかる、これが従来型のアルゴリズムになります。その限界とAIを用いた機械学習の違いを用いた例をお話ししましょう。

ウォーキング検出アルゴリズムというのを考えてみましょうか。
歩いていました。速度計で測りました、時速４マイルまでが妥当なウォーキングとわかりました。時速4マイルまでをウォーキングとルール設定しました。

次に、アルゴリズムの拡張を行います、時速4マイルより速い場合はランニングとルール追加します。

自転車に乗っている状態も追加しましょう。計測すると時速12マイルまでは、ランニング、それより速いと自転車とルール設定します。

さあ、ここで問題が起きます。

ゴルフ。ゴルフは歩いたり走ったり、止まったり、これをウォーキングと判断されても困るし、ゴルフという運動をしていることをどうやって検出すればいいのか？？？？ここにルールベースの限界があるわけです。
ここで、コペルニクス級転回をします。

ルール、データ、正解の並びを入れ替えて考えることをします。つまり、先に正解を与えて、それに関するデータを与えます。それを学習させていきAIにルールを見つけてもらう。ルールがわからないので、AIにルールを見つけてもらおう、これが機械学習になります。
ゴルフの例に考えましょうか。

エクセサイズに関係しそうな、心拍数、位置情報、速度などのデータを収集します。そのデータにラベルを貼ります。ウォーキング、ランニング、自転車、ゴルフということをすると、AI側が勝手に機械学習をして分類するアルゴリズムを、モデル化をしてくれます。

待て待て、こんな方法がありなのか？
音質評価で用いている、心理音響パラメーターは全部モデル化だったはず。心理音響パラメーターを完全に否定している機械学習やん！？
つまり心理音響パラメーターを一旦全部捨てて、AIに機械学習させて、音質評価モデルを作ればいいじゃん→心理音響断捨離を考えついたわけです。（この時点で私は20年近く心理音響パラメーターを研究してました、、、、）

で、どのAIを用いるか、画像認識AIに着目しました。AIの能力が際立っていたのが一因です。