BirdCLEF 2021 – Birdcall Identification参加記録 | 電機メーカーのデバッガーの日記

kaggle初参加コンペ

登録こそ3年前にしていたものの、実際に参加するのは初となる。とりあえず参加できてポイントやメダルの対象で期限が一番短いので参加することにした。

このコンペの目的

鳴き声で何の鳥か分類する

現状

一番高いレートのkernelをそのまま提出。0.61を得ている。全体の35％の部分からの得点であり、65％の部分次第で得点は変わることがあるらしい。何匹いるのかわからないが、正答率61％ということだろう。2択かと思ったがそんなわけはなく、すでにすごい。が、私にできる改善の余地がない。

やること

①基礎力の向上（タイタニックやなんやらからでいい）
②提出したカーネル及び基本となるサンプルが何をしているのかを理解する。
③基礎力の向上（わりかし期限前まで）

④手に入れた知識でなんとか頑張ってみる。

目標

ブロンズメダル圏内（そんな甘いわけあるか…）

やってること

kernelが0.64になったためコピペして提出。パラメータをいじったぽい？
udemyの講座が安くなっているのでベイズ統計学を購入。受講
何か機械学習学べるものないかなと思ったらkaggleのcourseが割と深い内容までやってくれるので、受講。英語が苦痛だが、今の時代DeepL先生がいるため。2画面あれば日本語で学べるようなもの。すごい時代です。
他の人の有用な情報を理解する必要がある。どのような特徴量を得ればいいのか、またその方法がわからなかったのでこの人の①と②を参考にする。専門外の学生のようだがすごい。まずはこの辺を単純に利用して機械学習してスコアを出せるようにしたい。
PyTorchのほうがいいらしい。今から学ぶならこっちか？というわけでこれも並行で。
ひとまず改変してみる。
ぱっと見全部nocallでもぼちぼちスコア出るんじゃないかと思ってやってみた。0.54。いや出すぎだろｗ全部特定の鳥にしたらさすがに0.00を食らった。

時間切れ

0.64のkernelのまま提出。さすがに厳しい気がする。ハイパーパラメータいじるくらいはできるのでは？感はあるが、そもそも上位2つのkernelは学習済みモデルを読み込みにいっているため、効果はないのでは？という感が強い。片方（両方？）は自力で学習モデル作る方法も別のnotebookで公開してくれているので、そこから作る手もあったかもしれない。時間が足りない。

感想

情報が出そろっているというのと、3年間別のことしていたのもあるけど、壁はむしろ高くなっているのでは？とすら感じた。ただ、何をやっているか少しづつ読み解ける部分もあり、3年前の何が何だかわからないとはならなかった。コンペの提出におけるCPU使用時間等が限られているが学習済みモデルを外部で作成して読み込ませればさすがに時間超えることなんてなくね？とも思うのと、リソースゲーなのか？ともちょっと思った。銅メダルくらいなら装備がなくても無料の範疇で何とかなるはず。GPU安くなったら買おうかな

結果

0.5678で348位。あっきらかにkernel出しただけのゾーン。もう片方の方がわずかにスコアが高いようで、その部分から0.0001でも改善できれば120位は上がる。その代わりメダル圏内はだいぶ上。
1位と2位の人が大きく順位を下げていた。提出時の判定となる35％のデータにフィットしすぎたってことなんでしょうか？ちょっとかわいそうな気もします。kaggle始めるにあたって非常に参考にさせてもらった記事を書かれているu++さんがわずかにメダルに届いていなかった。おしい。