産業保健、心理相談分野でのChatGPTの利用可能性について

はじめに

ここ数年、ChatGPTに代表される大規模言語モデルが社会の注目を浴びています。特にChatGPTは、利用者の質問に対して高い精度の回答を返すことから、様々な分野での実務への応用が期待されています。

そのような中、医療分野においてもChatGPTを用いた研究も実施されるようになってきています。今回は、Ayersら(2023)によるオンラインフォーラムのデータを利用して、医師とChatGPTの回答を比較した研究を紹介したいと思います。

https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2804309

Ayers, J. W., Poliak, A., Dredze, M., Leas, E. C., Zhu, Z., Kelley, J. B., … & Smith, D. M. (2023). Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA internal medicine.

Ayersらによるオンラインフォーラムのデータを活用した研究

この研究は、r/AskDocsという約47万人が会員となっているオンラインフォーラム(https://www.reddit.com/r/AskDocs/)のデータを用いて行われています。r/AskDocsでは、書き込まれた医療に関する質問に医師等の有資格者が回答しています。これらの質問と回答のうち、医師の回答に限定して195の質問と回答が抽出されました。さらに、ChatGPT-3.5(以下、ChatGPT)に、上記で抽出された質問を提示し回答回答を得ました。

次に、上記の質問と医師またはChatGPTによる回答を、回答者を伏せて無作為に小児科、がん領域、内科、感染症等の領域のそれぞれ3人の専門家に評価させました。専門家は、2つの回答のどちらが優れているかに加えて、回答の質、共感度合いを5段階で評価しました。なお、評価については3人の専門家の回答は平均されました。

結果はどうなったか?

結果は以下の通りです。

医師の回答と比較してChatGPTの回答を優れていると判断した割合は78.6%となりました。回答の質に対する評価は、ChatGPTが4.13、3.26となり、統計的にChatGPTの方が優れていると判断されました。

回答の質を評価した5段階で3未満の質の回答の割合は、医師が27.2%、ChatGPTが2.6%となりました。

一方で、回答の質に関する評価の5段階で4以上の「良い」、「とても良い」という回答の割合は、医師が22.1%、ChatGPTが78.5%となり、こちらも大差でChatGPTに軍配が上がった結果となっています。

さて、共感度合いの評価についてはどうだったのでしょうか?
実は共感度合いについてもChatGPTの方が統計的に有意に高い結果となりました。ChatGPTの共感度の平均は3.65、医師の平均は2.15となり、5段階で3未満の評価を得た回答は、医師が80.5%、ChatGPT-3.5が14.9%となったのです。一方で、5段階で4以上の「共感的である」、「とても共感的である」という回答を得た割合は、医師の4.6%に対して、ChatGPT-3.5が45.1%となりました。

論文中でも言及されているように、オンラインフォーラムという臨床と切り離された場を想定した結果である留意する必要がありますが、実際にオンラインフォーラムでやり取りされている質問と回答のデータを利用したことを考えると衝撃的な結果と言えます。

実務への影響は?

今回紹介した研究は医療に関する質問に対する回答をもとにしたものですが、今後、産業保健場面で産業医や保健師が人事部門や労働者からのテキストベースの相談を受ける際や、心理職によるテキストベースのカウンセリングを実施する際にChatGPTを活用することが考えられます。相談やカウンセリングでは、クライアントに対する共感が重要ですが、今回の結果を見ると、産業医や保健師、心理職と遜色のない共感度をChatGPTによる回答が示す可能性があります。メールやチャットといったテキストベースのやり取りであれば、産業医、保健師、心理職がChat-GPTにクライアントへ回答を下書きをさせるといった使い方かもしれません。

ChatGPT利用の留意点は?

このように便利なChatGPTですが、利用に対しては留意点もあります。たとえば、産業医などが所属している日本産業衛生学会産業保健AI研究会からは、産業保健分野におけるChatGPTの利用に対して声明が出されています。声明は2023年5月時点のものとされており、今後の技術動向によっては変更になる可能性があります。

声明では実務に関して下記のように述べられています。

利用可能な場面:個人情報を含まない一般文書の作成と校正は可能である。また実務を目的としたプログラムコードの生成やプログラム言語間の転換も得意である。
避けるべき場面:個人情報を打ち込むとそれ以降の学習に利用されてしまうた
め避けるべきである。また守秘義務や組織の機密に関する情報は,その後に利用されることを考えると,わずかでも入力するべきではない。さらに,画像生成は著作権に抵触する恐れがあるため,公的な場面で使用するべきではない。

日本産業衛生学会産業保健AI研究会「産業保健分野における ChatGPT をはじめとする大規模生成モデル利用の注意点について」https://drive.google.com/file/d/1-6qSTS6FvhxoaRtNKcZGYNLliuh6gWHO/view

個人情報、守秘義務、組織の機密に関する情報を入力することを避けるべきであることが述べられています。

上記の声明で触れられていませんが、ChatGPTでは、幻覚と呼ばれる、学習データに存在する情報とは異なる回答を返す現象が知られています。ChatGPTは法律に関する質問に回答することも出来ますが、その内容には誤りも含まれる可能性があります。したがって、相談に対する回答に関連して、労働法規等の法律に関する事実をChatGPTに質問するといった使い方は避けた方が良いと思われます。

産業保健場面での使い方としては、来月の衛生委員会で産業医として話すべき内容として、プライベートでの身体活動を増加させるためのアイデアを聞いてみる、面談を無断でキャンセルする労働者に対してどのようなメッセージを送れば良いか相談するといった使い方が考えられます。

心理職によるカウンセリングであれば、個人情報を含まない形でクライアントに関する一定の見立てを伝えた上で、アドバイス案を聞いてみるといった使い方が考えられるのではないでしょうか?もちろん、ChatGPTを使って作成したメッセージやコンテンツに関する責任は、メッセージを送信したりコンテンツを作成した本人が負うことになるのは言うまでもありません。

最後に

ChatGPTの登場により、ビジネス以外の分野でも、ChatGPTに代表される大規模言語モデルの利用が拡大しています。一方で、その回答の正確性や特性を評価する研究はまだ少ない状態です。今後、ChatGPTのような大規模言語モデルの利用可能性を検討することと、その回答の正確性や特性を評価する研究の両方を車の両輪として進めていく必要があると考えます。

以 上

Follow me!