生成AIの性能に関して

 1月に実施された最新の共通テストを生成AIに解かしてみたという面白い記事を知人がSNSで紹介してくれていたので読んでみました。

 結果も分析もとても面白く、ますますこれから何をするべきか考えさせられました。

 対象となった生成AIは3種類です。

 (1)GPT-4 (2)Google Bard (3)Claude2

 結果の一覧などはブログを見てもらったほうが分かりやすいんですが、最終結果はGPT-4の完勝でした。

 5教科7科目66%という結果でした。

 正直、僕は思ったより低い印象を持ってしまったのですが、実は今回どの生成AIも数学が極端に苦手で平均を大きく下回る結果となっています。

 GPT-4の数学を除いた教科の平均は76.5%なので、数学がどれほど苦手なのかが分かると思います。
 
 生成AIが数学で高得点を取れなかった理由として分析されていたのが以下の理由でした。
 ・生成AIの計算スキルが高校数学の範囲を簡単に溶けるレベルまで進化していなかった
 ・共通テスト数学の特殊な解答形式に対応できなかった
 ”なるほど、なるほど”と思うと同時にこれらの理由は時間がたてば解決していくんだろうなとも思いました。

 ただ数学の理由は分かったとしても、他の教科もまだまだ物足りない。

 個人的には、どの教科も満点近い成績を期待していました。

 満点を取れなかった理由としてあげられていたのが、「複数の処理を同時に求められる問題」を苦手としているでした。

 どういう問題化というと、例えば日本史などでよくある問題形式のⅠ~Ⅲの出来事を歴史が古い順に並び替えなさいという問題です。

 それぞれの時代の特定は出来ているのになぜか並び替える段階で間違えてしまう。

 順序立てて質問すれば解決するんでしょうが、現状では複数の処理を同時に質問すると混乱してしまうという課題が残っているということです。

 これは共通テストになって以降、センター試験の頃より、「知識を問う形式」から「知識をどう活用できるか?形式」にシフトチェンジしている結果が出ているともいえます。

 なので生成AIが満点を取ることが出来なかったのかもしれません。

 ただ知識をどう活用できるか?に変わっているとは言え答えが決まっている問題であることにかわりないので、共通テストはいずれ生成AIに攻略されると思います。

 なので、これからはいかに覚えるかではなく、生成AIの苦手なことを理解して、いかに質問してくかがとても大切になってくるんだと思います。

 生成AIが出来ないことを探すとか、生成AIを利用しないなんて時間の無駄だなと感じてしまいました。

 生成AIをどう使うかを使わずに考える前にまずは実際にGPT-4を使ってみてほしいと思います。

 
IMG_8160