今日は 2023 年共通テスト 1 日目です。
ということで、ChatGPT に 2022 年および 2023 年の共通テストの英語(リーディング)問題を解かせてみたところ、ともに100 点満点中 77 点を獲得したのでその結果をまとめます。
前提: ChatGPT とは
ChatGPTとは、2022 年の 11 月末 に OpenAI がリリースしたチャットボットです。従来の AI チャットボットに対する期待を大きく超える自然な会話や理解力の高さが世界中で話題となり、リリース以降話題に事欠かない存在になっています。GPT-3.5 というモデルが基礎となっており、インターネット上の膨大なデータを学習した大規模言語モデルと呼ばれる技術がベースになっています。 本記事執筆時点で ChatGPT は Research Preview の段階で、制限はありながらも無料で利用することができます。
今回の企画趣旨
本記事では、筆者が ChatGPT に 2022 年の共通テストの英語(リーディング)問題を解かせた結果をまとめています。 実験は 2023 年 1 月 14 日朝に 2022 年実施分、2023 年 1 月 15 日朝に 2023 年実施分を行いました。
ChatGPT が世間を騒がせているのを見て、数年前に話題になった、東大合格を目指す人工知能「東ロボくん」がどれだけ現実的なものなのか を検証したくなったのが本記事執筆の背景にあります。
ChatGPT に試験を解かせる検証は「アメリカの医師資格試験で合格水準を出した事例」や「コンピュータサイエンス教材の自由記述問題で合格水準の回答を出した事例」などがありますが、本記事では、共通テストの英語(リーディング)問題をすべて解かせてみました。
共通テストはかつて共通一次試験、センター試験と呼ばれた試験であり、大学入試の際に受験する試験です。「知識の理解の質を問う問題や、思考力、判断力、表現力等を発揮して解くことが求められる問題を重視した問題作成」という特徴6で、2021 年 1 月実施分からセンター試験に代わり実施されています。 多くの日本人にとって馴染みのある試験であるため、ChatGPT の能力を検証する上で分かりやすい題材と考え、採用しました。
また、英語(リーディング)は、「読解能力」を測る上で最適な科目と考え、採用しました。 国語は現代文・古文・漢文に分かれ、現代文の中でも漢字などの「読解能力がほとんど関係ない知識問題」があるため、今回は ChatGPT には解かせていません。
手法
2022, 2023 年に実施された共通テストの英語(リーディング)問題を取得し、問題文を ChatGPT に入力して解答を得ます。 流れをまとめると以下のようになります。
- 共通テストの英語(リーディング)問題の PDF を https://www.dnc.ac.jp/kyotsu/kakomondai/ より取得
- PDF から OCR でテキストを抽出
- かんたんな方法として、「PDF を Google Docs で開く」方法を採用
- 抽出したテキストをもとに、ChatGPT が理解可能な形式に適宜修正
- 追加の情報は与えないようにし、極力問題文のみを与えるようにする
- ただし表などは Markdown 形式に変換し、文字の情報は残した
- つまり ChatGPT には絵などの非言語情報を与えていない
- ChatGPT に順に問題文を与え、問題を解かせる
- 正答を生成するまで繰り返す行為などはせず、選択肢の中から回答をした時点でそれを ChatGPT の回答として集計する
本実験を行った時点で、https://chat.openai.com/chat には “Limited knowledge of world and events after 2021” と書かれているため、2022 年共通テストの解答を知らないという前提で実験しても問題ないと考えています。
「ChatGPT が理解可能な形式に適宜修正」について、公正に能力を検証するため、基本的には問題文をそのまま与えますが、対話が進みやすいように言葉を付け足したりしています。 具体的には次のような対話をしています。
(筆者)あなたには、これから英語の読解問題に回答していただきます。各大問の英文をそれぞれ読み、回答番号 1 〜 48 にあてはまるものとして最も適当な選択肢を選んでください。次のメッセージから問題が始まります。準備はいいですか?(ChatGPT)Yes, I am ready to assist you with English comprehension problems. Please provide the questions and their corresponding choices and I will do my best to provide the most appropriate answer.(筆者)これから第 1 問を始めます。次の文章を読み、問題に回答してください。解答は選択肢から 1 つ選び、選択肢のまま答えてください。(文章略)ここまでの文章をまず理解し、次のメッセージから、問題に答えてください。(ChatGPT)I have read and understood the passage about (内容略). Please provide the question for me to answer.(筆者)問 1 (問題文及び選択肢略)あなたの解答 1:(ChatGPT)My answer is 1: (1).
評価方法
共通テスト英語(リーディング)の得点を計算し、全国平均点と比較します。 2023 年の全国平均は 2023/1/15 の時点で公表されていませんが、共通テストの全国平均点が大きく変化することは考えにくいため、現時点では 2022 年実施分と合わせて ChatGPT の総合的な能力を評価する材料として使います。
結果
2022 年英語(リーディング)
2022 年共通テスト英語(リーディング)の得点は、以下のようになりました。
問題番号 | 得点/満点 |
第 1 問 | 8/10 |
第 2 問 | 18/20 |
第 3 問 | 15/15 |
第 4 問 | 9/16 |
第 5 問 | 9/15 |
第 6 問 | 18/24 |
合計得点: 77/100 (全国平均: 61.80/100)
参考まで、ChatGPT が出力した回答番号は以下の通りです。
第1問: 1, 4, 2, 2, 1
第2問: 5, 3, 1, 3, 4, 2, 4, 2, 4, 2
第3問: 1, 1, 1, 4, 3, 2, 2, 2
第4問: 3, 3, 4, 1, 4, 1
第5問: 1, 1, 5, 2, 4, 3, 1, 3, 3
第6問: 4, 3, 1, 6, 4, 2, 2, 1, 3, 4
2023 年英語(リーディング)
2023 年共通テスト英語(リーディング)の得点は、以下のようになりました。
問題番号 | 得点/満点 |
第 1 問 | 10/10 |
第 2 問 | 20/20 |
第 3 問 | 9/15 |
第 4 問 | 16/16 |
第 5 問 | 6/15 |
第 6 問 | 16/24 |
合計得点: 77/100 (全国平均: ?/100)
ChatGPT が出力した回答番号は以下の通りです。
第1問: 1, 4, 3, 4, 3
第2問: 2, 2, 2, 4, 1, 4, 1, 1, 1, 2
第3問: 3, 3, 3, 2, 4, 1, 3, 2
第4問: 1, 1, 2, 5, 1, 2
第5問: 4, 1, 2, 4, 1, 5, 3, 5, 2
第6問: 3, 4, 4, 6, 1, 4, 1, 2, 1, 4, 3
考察
ChatGPT は共通テスト英語(リーディング)で、2022 年、2023 年ともに全国平均点を大きく超える得点を取ることができました。 2019 年のセンター試験英語筆記で「東ロボくん」が 185/200 点をとっているのですが、受験対策をしていないただの汎用言語モデル である ChatGPT で 77% の得点率が得られるのはかなりの成果だと考えられます。 むしろ、センター試験ではなく「思考力を見る」とされる共通テストでこの点数を取れるというのは素晴らしい出来とも言えるのではないでしょうか。
大学入学レベルでの英文読解力を測る共通テスト英語リーディング問題でこの正答率であれば、2023 年 1 月時点の ChatGPT の性能で「基本的な英文読解力は十分にある」と判断しても良いのではないでしょうか。
今後も良質で膨大なデータの学習やモデルの改善によって、よりよい自然言語処理ができるようになれば、さらに良い結果が期待できますね。 もはや試験とは何を測るものなのか、考えさせられます。
本記事では 2022, 2023 年の共通テスト英語(リーディング)のみを対象にしましたが、ChatGPT の能力を更に検証するには「他の科目でも同程度の成績を期待できるのか」「2 次試験を含め、実際に大学合格は可能か」などを検討すると面白いかなと思います。
余談ですが、ChatGPT に順に問題を解かせていく対話の中で、次のような面白い現象も見られたので紹介しておきます。
ChatGPT に問題の文章を与えた時点で、設問を勝手に生成しはじめた
第 6 問あたりになってくると、筆者の質問文のパターンを理解してきたのか、「ここまでの文章をまず理解し、次のメッセージから、問題に答えてください」と言った時点で ChatGPT 自身が自分で問題を作って答える ようになってしまいました。 「会話の流れを考慮した結果、確率的に尤もらしい文章として生成されているだけ」なのですが、現象としてこれは面白いですね。パターンを与えれば勝手に問題と解答を作ってくれるので、教育などの場面に応用できそうですね。 例えば、英文読解力の訓練のため「自分が読んだ文章についての確認テストとその回答例を作ってもらう」などがすぐに思いつきます。