ChatGPTはメンタルヘルスマネジメント検定に合格出来るか?~産業保健の最新論文を読む①~
はじめに
現在の様々な領域でChatGPTに代表される生成AIが活用されるようになりました。資料の下調べ、文章、資料の作成等に活用している方も多いのではないでしょうか?そこで今回は、産業保健分野でのAIを活用した研究を紹介したいと思います。
ChatGPTがメンタルヘルスマネジメント検定に挑戦
ご紹介するのは北里大学の渡辺和広講師(論文掲載時)らによる論文です。現在早期公開されており、無料で閲覧が可能です。
渡辺和広, 筒井保博, 筒井隆夫, 山内武紀, 内田満夫, 八谷百合子, … & 川上憲人. (2024).メンタルヘルス・マネジメント (R) 検定試験に対する ChatGPT (GPT-4) のパフォーマンス: 要因計画法を用いた検討. 産業衛生学雑誌.
https://www.jstage.jst.go.jp/article/sangyoeisei/advpub/0/advpub_2024-017-B/_pdf/-char/ja
この研究ではChatGPT (GPT-4)にメンタルヘルスマネジメント検定の過去の試験問題を解かせてどの程度の点数が取れるのかを検討したものです。
メンタルヘルス検定は、大阪商工会議所が主催しているメンタルヘルスの知識を問う試験です。Ⅰ種、Ⅱ種、Ⅲ種の種類の検定があります。Ⅰ種はマスターコースと称され、人事労務管理スタッフ、経営幹部を対象としています。Ⅱ種はラインケアコースと称され、管理監督者を対象としています。Ⅲ種は、セルフケアコースと称され、一般従業員を対象としています。それぞれ大阪商工会議所がテキストを作成、出版しており、問題はテキストの範囲を元に出題されます。Ⅱ種、Ⅲ種は選択問題、 Ⅰ種は選択問題、論述問題が出題されます。
https://www.mental-health.ne.jp/about/#course
この論文では、選択問題を試験の難易度別に 4 回分 (200 問)、計 600 問用意して解かせています。なお、Ⅰ種は論述問題も過去 4 回分の問題を用意して、ChatGPTに解かせています。
ChatGPTにおいては指示文(プロンプト)を工夫することにより回答の精度を向上させることが出来ることが知られているため、今回の研究においても、試験問題をそのままプロンプトとして入力する条件 (単純プロンプト条件)、ChatGPTのパフォーマンスを向上させることが確認されているテクニックを使用したプロンプトを入力する条件 (調整プロンプト条件) の 2 条件を設けて実験しています。今回の研究デザインをまとめると以下の通りとなります。
単純プロンプト条件 | 調整プロンプト条件 | |
Ⅰ種 | 論述問題(4回分) 選択問題(4回分) | 論述問題(4回分) 選択問題(4回分) |
Ⅱ種 | 選択問題(4回分) | 選択問題(4回分) |
Ⅲ種 | 選択問題(4回分) | 選択問題(4回分) |
メンタルヘルス・マネジメント (R) 検定試験に対する ChatGPT (GPT-4) のパフォーマンス: 要因計画法を用いた検討. 産業衛生学雑誌.をもとに㈱ベターオプションズ作成
ChatGPTによる試験受験の結果は、論文の中の表1~表3に示されています。単純プロンプト条件での平均得点は 70.0±8.0 点、Ⅲ種 (74.5±6.5 点)、Ⅱ種 (71.5±7.4 点)、Ⅰ種 (64.0±6.2 点)となっています。表1には各回のChatGPTの成績と実際の試験受験者の点数も記載されていますが、実際の試験受験者の平均得点を上回る場合もあれば、下回る場合もある結果となっています。なお、Ⅰ種試験では、選択問題の平均得点は 70 点を下回る結果となり、論述問題については得点率が 50%を下回り、合格基準を上回ることは出来ない結果となりました。
なお、プロンプト条件の違いについては平均得点の差がわずかであり、プロンプトを工夫したことによるパフォーマンスの有意な向上はありませんでした。その他の結果については論文中に詳述されていますので是非ご覧ください。
産業保健におけるAI活用の今後の課題
ChatGPTをはじめとする生成AI技術は日進月歩で進化しています。今回紹介した論文ではメンタルヘルスマネジメント検定のⅠ種に必要なラインを超えることは出来ませんでしたが、遅かれ早かれ知識面ではⅠ種を上回る知識を身に付けることが予想されます。もちろん産業保健に必要な知識はメンタルヘルスマネジメント検定で問われる範囲でだけではありませんが、AIは膨大な情報を学習することが可能であり、将来的には具体的な休職や復職に関する従業員の情報や状態をインプットすれば専門職としての所見を述べさせるというということも可能になるのは間違いありません。
ただし、今後AI活用を進めていくには産業保健に関する領域特有の課題、及びAI活用全般に伴い課題があると考えられます。
第一点は機密性の問題です。AIに休復職の判断をさせるには、従業員の個人情報を含む具体的な状況、状態を入力することが必要となりますが、このような情報が誰もが利用出来るAIの学習データとなってしまうことは個人情報保護の観点、あるいは産業医や保健師の守秘義務の観点からは望ましくありません。AIにインプットした情報に各社の特定の産業保健スタッフ以外はアクセスできないような仕組みを確立した上で活用する必要があるでしょう。
第二点はAIが下した判断が誤っていた場合の原因追及の困難さの問題です。将来、AIが熟練した産業医、人事と同等の判断を下すことになり、企業がその責任を負ってAIの意見をもとにした休復職の判断を下すことなったとします。その際に、AIによる復職判断を採用した結果、復職した従業員が職場に適応できずに再休職してまったとします。その場合、なぜ誤った判断をしてしまったのかという原因追及が必要ですが、大規模かつ複雑化しブラックボックス化したAIではそれが不可能です。
以上に述べた以外にもAIを実際に産業保健の実務に活用していく上での課題は存在します。AIが加速的に進化する現在、産業保健サイドでも整理、検討していく時期に来ていると言えるかもしれません。
<執筆者紹介>
宮中 大介。はたらく人の健康づくりの研究者、株式会社ベターオプションズ代表取締役。行動科学とデータサイエンスを活用した人事・健康経営コンサルティング、メンタルヘルス関連サービスの開発支援に従事。大学にてワーク・エンゲイジメント、ウェルビーイングに関する研究教育にも携わっている。MPH(公衆衛生学修士)、慶應義塾大学総合政策学部特任助教、日本カスタマ―ハラスメント対応協会顧問、東京大学大学院医学系研究科(公共健康医学専攻)修了。
以 上