Насколько хорош этот ИИ
2 минуты чтения
С одного взгляда:
Инструменты искусственного интеллекта, которые быстро и точно создают подробные отчеты о компьютерной томографии или рентгенографии пациента, могут значительно облегчить работу занятых рентгенологов.
Вместо того, чтобы просто определять наличие или отсутствие отклонений на изображении, эти отчеты ИИ содержат сложную диагностическую информацию, подробные описания, нюансы результатов и соответствующую степень неопределенности. Короче говоря, они отражают то, как рентгенологи описывают то, что они видят на сканировании.
Больше новостей о HMS можно найти здесь.
На сцене начали появляться несколько моделей искусственного интеллекта, способных генерировать подробные повествовательные отчеты. Вместе с ними появились автоматизированные системы оценки, которые периодически оценивают эти инструменты, чтобы помочь в их разработке и повысить их производительность.
Итак, насколько хорошо существующие системы оценивают радиологические характеристики модели ИИ?
Ответ хороший, но не отличный, согласно новому исследованию исследователей Гарвардской медицинской школы, опубликованному 3 августа в журнале Patterns.
По словам исследователей, обеспечение надежности систем оценки имеет решающее значение для дальнейшего совершенствования инструментов ИИ и для того, чтобы врачи доверяли им, но метрики, проверенные в исследовании, не смогли надежно выявить клинические ошибки в отчетах ИИ, некоторые из которых являются значительными. По словам исследователей, это открытие подчеркивает острую необходимость в улучшении и важность разработки высокоточных систем оценки, которые достоверно и точно отслеживают производительность инструмента.
Здоровье сердца. Питание. Здоровье мозга. И более.
Команда протестировала различные показатели оценки в повествовательных отчетах, созданных ИИ. Исследователи также попросили шестерых рентгенологов прочитать отчеты, созданные ИИ.
Анализ показал, что по сравнению с рентгенологами-людьми автоматизированные системы оценки хуже справляются с оценкой отчетов, созданных ИИ. Они неверно интерпретировали, а в некоторых случаях игнорировали клинические ошибки, допущенные инструментом ИИ.
«Точная оценка систем искусственного интеллекта — это важнейший первый шаг к созданию радиологических отчетов, которые будут клинически полезными и заслуживающими доверия», — сказал старший автор исследования Пранав Раджпуркар, доцент кафедры биомедицинской информатики в Институте Блаватника при HMS.
Стремясь разработать более эффективные показатели оценки, команда разработала новый метод (RadGraph F1) для оценки производительности инструментов искусственного интеллекта, которые автоматически генерируют радиологические отчеты на основе медицинских изображений.
Они также разработали комплексный инструмент оценки (RadCliQ), который объединяет несколько показателей в единый балл, который лучше соответствует тому, как рентгенолог-человек оценивает эффективность модели искусственного интеллекта.
Используя эти новые инструменты оценки для оценки нескольких современных моделей ИИ, исследователи обнаружили заметный разрыв между фактической оценкой моделей и максимально возможной оценкой.
«Измерение прогресса необходимо для продвижения ИИ в медицине на новый уровень», — сказал соавтор Фейян «Кэти» Ю, научный сотрудник лаборатории Раджпуркара. «Наш количественный анализ приближает нас к искусственному интеллекту, который помогает рентгенологам обеспечивать лучший уход за пациентами».
В долгосрочной перспективе цель исследователей заключается в создании универсальных медицинских моделей искусственного интеллекта, которые будут выполнять ряд сложных задач, включая способность решать проблемы, с которыми ранее никогда не сталкивались. Такие системы, по словам Раджпуркара, могут свободно общаться с рентгенологами и врачами о медицинских изображениях, чтобы помочь в постановке диагноза и принятии решений о лечении.
Команда также стремится разработать помощников искусственного интеллекта, которые смогут объяснять и контекстуализировать результаты визуализации непосредственно пациентам, используя повседневный простой язык.
«Благодаря лучшему взаимодействию с рентгенологами наши новые показатели ускорят разработку искусственного интеллекта, который легко интегрируется в клинический рабочий процесс для улучшения ухода за пациентами», — сказал Раджпуркар.
Авторство, финансирование, раскрытие информации
В число соавторов входят Марк Эндо, Райан Кришнан, Ян Пэн, Энди Цай, Эдуардо Понтес Рейс, Эдуардо Кайзер, Урурахи Нуньес Фонсека, Энрике Мин, Хо Ли, Захра Шакери, Хоссейн Абад, Эндрю Нг, Кертис П. Ланглотц и Васанта Кумар. Венугопал.