研究テーマ
動作識別—3D畳み込みネットワーク特徴入力に基づくサブスペース方法
研究背景・研究目的
動作識別は機械視覚における1つの重要な応用であり、その主要目標は1つのビデオの中の行為の種類を判断することであり、実際には多くの場面で応用されている。例えば、ショッピングに関する分析、試合中の動作判定、行為の分析、歩態の分析などである。近年,動作識別に関する多くの研究結果が発表され、且つ実践にも用いられている。大学4年生の実習過程で机械学習に関するプロジェクトに触れることができ、畳み込みネットワークと動作識別の関連知識にも触れることができた。関連の文献を読むにつれ、まったく異なる二つの問題解決の考え方を見つけた。1つ目は,畳み込みネットワークを構築し、データを学習する機械的な学習手法。2つ目は、ある方法を用いてデータの特徴を抽出した後、その特徴を直接分類する手法であり,一部の文献では二つの方法を融合させているもののある。上記の方法は比較的優秀な表現であるものの、データにある時間の特徴を考慮しているものは少なく、時間の特徴を運用した方法は基本的に畳み込みネットワークの形式で直接分析した結果で、最終データの特徴値だけに対し簡単なリニア分類を行った。上記の2種類の発想において、特徴値の効率的な利用方法について記述する文献も多い、私が最も興味を持った方法はサブスペース方法である。
サブスペース方法やその拡張方法は分類の中でよりメリットがあると私は考える。ただし、サブスペース方法は良質な特徴抽出機が必要であり、畳み込みネットは抽出する面においてかなり優秀であり、且つ少数の文献では時間特徴を兼ね備える3D畳み込みネットワークの概念を提出し、比較的優秀な実験データも提出した。本研究では、3D畳み込みネットワークとサブスペースアプローチを組み合わせた動作識別方法を想定し、専門的な動作および動画データにおいてどのような性能表現がされているかを検証し、動作識別の問題に新しいアプローチをもたらすことができるかどうかを検討する。
先行研究
[4]の文献では,サブスペースのアプローチについて詳しく述べられており、且つ画像分類アプリケーションに適用され,異なる類別のサブスペースの類似度の計算方法が記述されている。また、[5]ではサブスペースの拡張方法について記述し、例えば、差分子スペースや広義の差分子スペース方法、異なる種類のサブスペースが広義の差分子に投影することにより、異なる類別間の格差を向上させ、同時に同種類内の分散の影響を引き下げ、且つノンリニヤリティデータの分類性能を高めるためるkernel方法を導入した。多くの領域において、サブスペース方法に関する文献が発表されており、例えば、顔識別、歩型識別、手書き文字識別など、サブスペースは確かに良好な特徴分類特性を持っていることを示している。これのみならず、サブスペースの方法を動作認識に応用しようとする文献もあり,例えば[9−11]の3つの文献では,すべてサブスペースの拡張方法が採用されている。前者はTWARMAの手法を用いて連続画像中において速度に無関係な特徴を抽出し,後者はRTWの手法を用いてそのサブスペースを求めて分類する。しかしながら、両者とも現在までに提案されている動作認識手法の最適性能には達しておらず、特徴抽出段階では不十分である可能性があると筆者が最後の分析で指摘している。
しかし、畳み込みネットワークは特徴抽出面においてすでに多くの研究がなされ、肯定されている。[3]ではCNNの特徴を結合する錐体サブスペースの方法が用いられ、かなり良い分類結果をされている。 [12]および[13]の文献ではそれぞれCNNの特徴を用いて画像を分類し、且つ既存の方法と比較し、妥当性を証明した。前者はCNNの特徴として入力のSVM方法を用いて画像を分類し、後者は異なる畳み込みネットワークのfactorsを調整することにより、より良い応用を新しい任務に特徴を抽出する。上記の文献がそれぞれCNN特徴を採用したものの、私は動作認識において空間の特徴を考えるだけでなく、時間特徴の分類も大きな比重占めると考えている。一般的な畳み込みネットワークは時間との特徴を効果的に抽出することが困難であり、すでに一部の文献では畳み込みネットワークの改造し、時間特徴の抽出を試みている。例えば[1,2]二つの文章において、それぞれ3 D畳み込みネットワークの形で、空間と時間上の特徴を抽出して分類任務に応用した。また、[14]この文献では多様な方法用いて畳み込みネットワークによって時間特徴を抽出する方法を試し、そのうち、Fast FusionとLast Fusionはそれぞれ最初と最後の階で3 D畳み込み方法に似た方法を採用し、Slow Fusionは1階ごとに3D畳み込みネットワークの概念を用いていたが、最終結果ではSlow Fusionの表現方法が比較的優れていた。
以上の分析に基づき、3D畳み込みネットワークにおける特徴処理の方法は最適ではないと考え、3D畳み込みネットワークの特徴抽出特性とサブスペース方法の分類特性を結合し、動作識別に対して実行可能な結合方案を提案したい。
研究方法と手順
上記の先行研究の基礎の上で、本研究では異なる二つの3 D畳み込みネットワークの特徴値、C3D特徴とSlow Fusion畳み込み特徴に基づき、データ採取はSPORTS-1MとUCF101と二つの動画集のサブセットを用いる。サブスペースアプローチは[15]で提出した手法を参照する。全体的な実験手順としては,次の4つの主要な手順が予想される。
ステップ1、畳み込みネットワークのトレーニング、3Dネットワークの特徴が良い数値を取得し、同時に計算のリソースを下げ、[2][14]で既にトレーニング済みのネットワークに対しFine-tuningを行い、且つSPORTS-1MとUCF101だけを使うの少データでトレーニングし、テストデータのLOSS値が最低値に到達した際にトレーニングを停止する。
ステップ2、サブスペースでのトレーニングでは、ステップ1でトレーニングされたネットデータの分類階層をなくし、異なる類別のデータをネットワークに入力し、且つ相応の特徴マトリックスを取得することで、異なるサブスペースを得る。ここでは、異なるサブスペースの処理方法を運用し、サンプルの特徴マトリックスを処理する。例えば、広義差分子スペース方法、テーパースペース方法など、実験段階では異なる方法を用いて結果を対照する。
ステップ3、テスト集の正答率の計算をする。事前の残したデータを第一歩の畳み込みネットワークに入力し、特徴マトリックス或いは特徴ベクトルを取得する。ステップ2と同様のサブスペースを生成する方法を経て、トレーニングデータサブスペースとの類似度を算出し、且つ全てのテストデータを分類を終えた後、分類の正解率を計算する。
ステップ4、ステップ3の異なる組合せ方式によって取得した正確率とすでに発表された異なる動作識別の文献と比較し、方法の実行可能性を評価し、改善できる点を提出する。
本実験は主に3D畳み込みネットワーク方法とサブスペース分類方法の結合に注目し、それぞれの方法に対する革新提案ではない。実際の過程では多様な組合法を試し、実際の執行でも予想できない状況が起こることもあり、実験の具体的な操作も変わる。上記の仮設も実験の最終データに基づき出される結果となる。
研究の意義と期待する成果
現在、多くの動作認識に関する文献が発表され、実験の方法も様々である。単なる机械学習の方法と各種特徴の分類方法では、相応の領域でよい性能効果が得られている。本実験では主に二種類の優れた方法を用いて、一種の新しい組み合わせ方式を提示する。動作識別の問題に対し新しい解決策を提出する。現実問題を解決する際、迅速且つ正確な方法を一つ多く得る。本実験では、上記二種類の優位性を合わせたため,二種類のいずれよりも優れた性能が得られることが期待される。
学習計画。
まず、本科でコンピューター科学を専攻する一人の学生として、本科期間において、基礎知識に対し相当の理解ができており、大学4年生のインターンでも深い理論知識に関する一定の基礎を身につけた。しかしながら、実際の学習と仕事の中では、機械学習トレーニングプログラム研究開発を経験することができず、自分の余暇を利用しミニプログラムを作成しているものの、ハードスペックがないために、大きな向上は得られず、そのため、大学院の段階では、私は研究と理論学習を同時に進める中で、できるだけ多くの機械学習プロジェクトに参加し、経験を積みたいと思う。また、大学院在学期間中に修士の入試に参加し、より一層関連知識に触れ、自分の視野を広げ、関連の技能を充実させることで研究プロジェクトを完成したいと考える。