データコンペ反省会
この記事はWMMC Advent Calendar 2022 の11日目の記事です。
WMMC Advent Calendar 2022 - Adventar
昨日の記事はT_Kimura氏の
「ロボット日記: DCマウスにステップアップするにあたって」
でした。
非常にためになる記事でしたね。言葉の節々に苦労したんだろうな...というのが感じられました。ただただ恐縮です。
今日の記事はマウスにまったく関係ないので、かるーく見てください。
目次
自己紹介
会計をやっているpizzagatakasugiです。そのうち成仏します。
データサイエンスコンペティションとは
あまり聞きなじみがない言葉かもしれません。
基本的にデータコンペといえば、
参加者が共通のデータセットに対して最も精度の良い予測モデルを構築する大会です。
ただし、ここでは早稲田が主催しているコンペのことを指します。
このコンペに参加しました。
kaggleやSIGNATEの最大の違いとしてプレゼンをするというものがあります。
全体的な流れとしては、
データセットが与えらえる
↓
自由に分析する
↓
得られた知見をプレゼン形式で発表する
みたいな感じです。
実質アイデアコンテストみたいなものです。
予選でグループに分かれて発表をして結果がよければ決勝に進みます。
MyWasedaに当日の動画が公開されているみたいなので、
興味があればどうぞ。
分析手法
学外の人に発表する際は許可をとらなければいけないので、
データの内容については触れません。そのため何をやったかについてだけ
ざっくり説明すると
検定における処置群と対照群で処置群のみしか得られず、処置群のデータの属性が過多で傾向スコアによるマッチングが難しかったので深層学習によりやや強引に対照群のデータを生成し、平均因果効果を求めました。
雰囲気で感じてください。
結果
しっっっっかり予選落ちしました。
割とがんばった(当社比)のでそこそこ凹みました。
というわけで以降は反省会です。
敗戦直後なのでかなりネガってます。
苦手な人はブラウザバックしてください。
結果の分析
もっとテーマ決めに時間をかければ良かった
予選敗退の原因はいろいろあると思うのですが、根本を考えるとここに行き着きます。
僕はこういう自由な設定が与えられると、つい気持ちがはやってすぐにテーマを決めて実行に取り掛かろうとするんですが、まぁこれがよくない。
自分が今所属している研究室でも研究テーマについてかなり詳細な説明をされて、
えらく丁寧に決めるんだなぁと思ってたんですが、考えが甘かった。
テーマ決めってすごい重要なんですね。
結局のところテーマが普通過ぎると、誰でも出来るというか当たり前というか
面白味みたいなものが何もないんですよね。
もっと強みを活かせば良かった
私見ですが、今データ分析は統計因果推論と機械学習に分かれている気がします。
僕は機械学習側の人間なので、もっとそっち方面に偏っていけばよかったのですが、
つい目移りしてしまってどっちもやった結果どっちも中途半端に
終わってしまいました。時と状況によると思うのですが、こういったアイデア系の
制作物は全体を網羅するよりも一方面に尖ったほうがいいです。
結果的にその方が見映えがよくなります。
世間で∞回言われているやつ
テーマの話をしたんですが、受賞チームの傾向をみたところ、
・提案した手法が新しいかどうか
・得られた結果が(正しいかどうかは分からないが)有効かどうか
を重要視しているみたいです。
要するに誰もがなんとなく知っていることとか、知ってても意味がないことは
じっくり分析してもあまり良い評価はされないということなんでしょうね。
よくよく考えてみたら
求められていないことを完璧にこなして一人で気持ちよくなっていただけでした。
終わりに
というわけでいろいろ語ってしまいました。
ただいい経験になりました。
皆さんも機会があったらどうぞ参加してみてください。
理系と文系の着目点のギャップみたいなのがわかると思います。
明日の記事はkuroさんの「1自由度振動の数値シュミレーションについて書こうかな」です。当に工学系といった感じでワクワクしてきますね。
お忙しい中ありがとうございます。
それでは