Moku:Go による機械聴覚教育

適応型ノイズキャンセリングと加速されたニューラルネットワーク話者識別を備えたカスタム会議室システム

2023 年 3 月 17 日

概要

武漢理工大学 (WUT) はダブルファーストクラス大学であり、中国の工学系大学のトップ 10 に常にランクされています。 WUT は、人工知能や新エネルギー車など、現代および新興の工学分野の教育を専門としています。

Moku:Go は、エンジニアリング教育および一般産業向けに調整された Liquid Instruments の初のソフトウェアデファインド計測ソリューションです。ソフトウェア定義の機能により、Moku:Go は電子工学や電気通信の研究室で使用される 14 以上の異なる機器を提供できます。とマルチ機器モード (MiM) を使用すると、ユーザーは機器のペアを組み合わせて、ロスレス相互接続で同時に実行できます。

Moku:Go サポート Mokuクラウドコンパイル (MCC) は、デジタル信号処理アルゴリズムの作成と展開のためのホスト型サービスです。 MCC ユーザーは、MATLAB や Simulink などのお気に入りのツールを使用してアルゴリズムを設計し、それを Moku:Go デバイスに簡単に展開し、他のソフトウェア定義の計測器と一緒にリアルタイムで実行できます。

課題

WUT の学生は、多くの人よりも早く、そしてより深刻に新型コロナウイルス感染症のパンデミックの影響を受けました。授業のために直接会うことが許可されていた場合、マスク着用の義務化と社会的距離の確保の要件により、学生たちはお互いの声を聞き、講師の話を聞き、授業に参加することが困難になりました。

この課題に応えて、学生グループは自動追跡機能とリアルタイム音声処理を備えたインテリジェントな会議室システムを設計することにしました。学生たちは、会議室システムに求める 4 つの異なる機能を特定しました。

話者識別
音声イコライゼーション（音質向上）
適応型ノイズキャンセリング
マスク検出

ソリューション

学生たちは、システムの構築に最適なデバイスとして Moku:Go を選択しました。この選択は、Moku Cloud Compile のような強力なカスタマイズオプションとともに、さまざまなアプリケーションの構成を可能にするインストルメンテーションへのソフトウェアデファインドアプローチに基づいています。彼らは、話者の識別と適応型ノイズキャンセリングという中核的な問題に Moku:Go を使用しました。音声イコライゼーションは、 Moku:Go デジタルフィルターボックス, このプロジェクトでは、学生たちはすでに持っていた単純な FPGA 開発ボードを使用しました。マスクの検出を視覚的に判断するために、学生は市販の顔検出システムを使用しました。

話者の識別は困難な作業ですが、背景ノイズを抑制しながら話者の音声を増幅することが必要です。学生たちは、Kendryte の強力な K210 エッジコンピューティングアクセラレータを Moku:Go に接続することでこれを達成しました。 K210 は、組み込みシステムの機械学習タスクを高速化するために特別に設計された、コスト効率の高いシステムオンチップです。学生たちは、畳み込みニューラルネットワークを実行するように K210 をプログラムし、アレイ内の XNUMX つのマイクから入力信号を受け取り、支配的な音の方向を表すアナログ電圧を生成しました。

学生は、K210 のドミナントスピーカーの方向信号を Moku:Go PID コントローラー (図 1)、システムの高忠実度マイクが向けられた実際の方向を表す信号も含まれます。 PID コントローラー機器は、これらの値の差を取得して方向誤差を検出し、サーボモーターを駆動して主マイクの位置をスピーカーに向けてスムーズに再調整しました。

図 1: マイクの位置調整用に構成された PID コントローラー

比例ゲインは PID コントローラーの調整を支配しますが、積分器と微分器の飽和機能は、低周波数と高周波数でゲインをわずかに制限付きで増加させます。低周波数では、積分器は方向探索アルゴリズムの系統誤差とバイアスを補償します。小さな差動ゲインがダンピングを提供し、マイクの動きを滑らかにします。

学生のシステムの最終段階は、適応型ノイズキャンセリングでした。この強力な手法は、ノイズの多い信号と環境ノイズのストリームという 2 つの入力を必要とします。元の信号から環境ノイズを最適に除去するためにフィルターをインテリジェントかつ自動的に調整します。この場合、学生たちは話者に向けられた主マイクから信号を取得し、マイクアレイから環境ノイズをサンプリングしました。

ノイズキャンセリングに使用されるアルゴリズムの 1 つは、最小二乗平均 (LMS) 適応フィルタリングです。ただし、フィールドプログラマブルゲートアレイ用の LMS 適応フィルターの作成は複雑な作業であり、ほとんどの大学レベルの信号処理カリキュラムの範囲外です。 MCC はギャップを埋め、学生が MathWorks Simulink を使用して標準ビルディングブロックから LMS アルゴリズムを構築およびテストし、それを Moku:Go デバイス上で実行できるようにしました。

結果

適応型会議室システムは、真の分野横断的なチームの取り組みによるものでした。ニューラルネットワーク、コンピューターエンジニアリング、制御システムに精通した学生が、話者識別システムを構築および検証し、ニューラルネットワークをトレーニングし、PID コントローラーを調整しました。

適応型ノイズキャンセリングが最大の課題であることが判明しました。学生たちが利用したのは、 Moku:Go データロガー実際の状況で信号をキャプチャして、MATLAB/Simulink エコシステムで設計をテスト、反復、改良できるようにします。システムを検証したら、HDL Coder を使用してシステムを VHDL にエクスポートし、最終的なシステムチェックを実行しました。そのようなシミュレーション実行の 2 つを図 2 に示します。ここでは、上の行に示されている理想的な音声信号が、LMS 適応フィルターに供給される前に人為的にバックグラウンドノイズで埋め尽くされています (XNUMX 行目)。フィルターはすぐにノイズプロファイルに合わせて調整し、音声を復元しました (図 XNUMX の最後の行)。

図 2: 現実世界のデータに対する適応型ノイズキャンセリングシステム VHDL のシミュレーションされたパフォーマンス

実際のデータを使用してオフラインで検証されると、VHDL を MCC にインポートし、デザインを構築し、Moku:Go デバイスで実行しました。

まとめ

Moku:Go は、実際の差し迫った問題を解決しながら、リアルタイムデジタル信号処理 (DSP) と機械学習技術に対する学生の理解を促進する完全適応型会議室システムの中核を形成しました。 Moku:Go の究極の柔軟性は、単一ユニットを再利用して制御システム、フィルター、複雑な DSP を開発できることを意味します。 HDL Coder と MCC の統合は、複雑な信号処理の迅速なテストと展開において非常に効果的でした。

Moku:Go と当社のコースウェア製品の詳細については、教育チームに直接お問い合わせください。 edu@liquidinstruments.com.

Moku:Go による機械聴覚教育

概要

課題

ソリューション

結果

まとめ

その他のケーススタディ