Анализ эффективности ChatGPT в клинических процессах
ChatGPT (разработанный OpenAI) - это языковая модель, способная генерировать текст, похожий на человеческий, она учитывает контекст и взаимосвязи между словами.Языковая модель обучена на основе разнообразных источников информации, включая веб-сайты, статьи и книги, вплоть до 2021 года, при этом ChatGPT не копирует существующую информацию напрямую.
CБыла исследована эффективность новой языковой модели LLM, ChatGPT (OpenAI), на основе подробных клинических описаний. ChatGPT - это популярный чат-бот, основанный на генеративной предварительно обученной модели Transformer-3.5 (GPT-3.5) от OpenAI, выпущенной в 2022 году. Появилось небольшое, но растущее количество предварительных исследований, описывающих его результаты в различных сферах (например, в медицине, праве, бизнесе и бухгалтерском учете).
CСегодня ИИ используется в различных областях медицины, таких как интерпретация рентгенологических изображений, а также консультирование пациентов с помощью интерактивных чат-ботов. Одной из менее изученных сфер применения ИИ в медицине является постановка диагнозов и назначение планов лечения для пациентов.
До недавнего времени модели ИИ не обладали достаточной точностью и эффективностью в решении медицинских задач. Однако с появлением больших языковых моделей (LLM), возникли новые возможности для использования ИИ в предоставлении ответов на всех этапах клинического процесса.
Учитывая, что LLM, такие как ChatGPT, могут анализировать большие объемы текстовой информации для генерирования ответов на заданные человеком вопросы, предположили, что ChatGPT сможет выступать в качестве помощника в различных клинических ситуациях, используя обширную информацию из электронной медицинской карты пациента и других медицинских источников.
Проверялась гипотеза о том, что, зная клинические описания, ChatGPT сможет рекомендовать диагностические обследования, определять курс лечения и в конечном итоге ставить диагноз.Оценивалась точность ChatGPT в решении сложных клинических задач, учитывая возраст пациентов, пол и тяжесть клинической картины.
Наиболее высокой точности (в среднем 76,9%) ChatGPT достигает при ответах на вопросы, связанные с постановкой диагноза, что подразумевает возможность модели поставить окончательный диагноз на основе истории заболевания, физикального осмотра, результатов диагностики и другой релевантной клинической информации. Не было обнаружено статистически значимой разницы между точностью ответов на вопросы частного и общего характера, что указывает на сопоставимую эффективность ChatGPT в конкретных клинических случаях и при предоставлении общих медицинских фактов.
Точность была ниже для вопросов, связанных с диагностическими тестами. В некоторых случаях это объяснялось тем, что ChatGPT рекомендовал дополнительное или ненужное обследование. Это указывает на то, что ChatGPT не всегда способен должным образом ориентироваться в решении клинических задач.
Несмотря на впечатляющую работу ChatGPT, следует отметить, что даже небольшие ошибки в суждениях могут привести к неблагоприятным исходам. Ответы ChatGPT основаны на предсказании следующего наиболее вероятного "токена" — слова или фразы, дополняющей текущий ответ. Это свидетельствует о недостатке у ChatGPT способности к полноценным рассуждениям. Это подтверждается случаями, когда ChatGPT рекомендует ненужное лечение или отказывается поставить диагноз даже при наличии всей необходимой информации, а также частыми ошибками в дозировке назначаемых препаратов на курс лечения.
С ростом применения искусственного интеллекта важно не только понять, насколько надежны эти инструменты, но и определить наиболее эффективные методы их внедрения. Анализируя точность ChatGPT на всех этапах клинического процесса, исследование предоставляет реалистичное представление о том, как большие языковые модели (LLM), такие как ChatGPT, могут функционировать в различных клинических ситуациях. Интеграция LLM с существующими электронными медицинскими картами пациента может способствовать улучшению результатов лечения и эффективности рабочего процесса в целом.