今週の振り返り
大体、学習時間としては10時間弱。本格的なKaggleコンペデビューに向け、勉強開始。
記念すべき第1回目のコンペは、Bird CLEF2024.
鳥類は移動性が高く、生息環境の要件が多様であるため、生物多様性の変化を示す優れた指標となります。したがって、種の集合と鳥の数の変化は、修復プロジェクトの成功または失敗を示す可能性があります。しかし、広い地域にわたって従来の観察者ベースの鳥の生物多様性調査を頻繁に実施するには費用がかかり、物流上も困難です。比較すると、受動音響モニタリング (PAM) と機械学習に基づく新しい分析ツールを組み合わせることで、自然保護活動家はより高い時間分解能ではるかに大きな空間スケールをサンプリングし、修復介入と生物多様性の関係を深く調査することができます。
このコンテストでは、機械学習スキルを使用して、十分に研究されていないインドの鳥の種を音で識別します。具体的には、連続音声データを処理し、鳴き声によって種を認識するための計算ソリューションを開発します。最良のエントリは、限られたトレーニング データで信頼できる分類器をトレーニングできます。成功すれば、 IISER Tirupati の VV Robin’s Labが主導する取り組みなど、インドの西ガーツ山脈で鳥類の生物多様性を保護するための継続的な取り組みの推進に貢献することになります。
Kaggle 公式ページより
これまで音声データを取り扱った経験がないので、まずは過去のコンペや音声処理ライブラリlibrosaを触ってみて、コンペに対する理解やコンペ周りの学習を進めていく予定。
- 以下の音声処理の基本処理を学習。
- 音声の読み込み
- 周波数を指定して音声を読み込み
- Notebook上で、音声をプレーヤーで再生
- 音声波形のグラフを表示
- スペクトログラムへの変換
- STFTで音声からスペクトログラムへ変換
- 強度をdB単位に変換
- スペクトログラムのカラープロットを表示
- 音声を復元
- 逆STFTでスペクトログラムから音声を復元する場合
- 位相情報を推定して音声を復元する場合
- 音声の読み込み
一旦は仮でRFCでデータ分析を進めている方のNOTEがあったので、それをベースに学んで、4月末辺りには自分のオリジナルを公開できるといいかなという感じ。コンペ中は内容の詳細を公開できないので、詳細はコンペ終了後で。それでは。
コメント