Новость

Исследование: новейшие модели ChatGPT выдают неверные ответы в два раза чаще, чем более старые

2

Последние модели искусственного интеллекта ChatGPT o3 и o4-mini в два раза чаще подвержены галлюцинациям, чем менее совершенные нерассуждающие версии. Об этом рассказал портал TechCrunch, опираясь на данные теста OpenAI.

Под галлюцинациями в контексте нейросетей имеется в виду несоответствующие действительности ответы, которые ИИ выдаёт с полной уверенностью в их достоверности. В частности, во время теста PersonQA, который проверяет знание ChatGPT о людях, у o3 возникали галлюцинации в 33% случаев, а у o4-mini — в 43% запросов. Для сравнения, у o3-mini этот показатель не превышал 15%. 

Другой тест под названием Transluce, проведённый независимым разработчиком, показал, что модель o3 вообще любит выдумывать свои действия. Например, на один из запросов ИИ ответил, что запускал программный код на Apple MacBook Pro 2021 года «вне ChatGPT» и копировал числа в свой ответ. Однако на практике алгоритм ей таких возможностей не предоставлял.

Один из способов борьбы с галлюцинациями — предоставление ИИ опции пользования веб-поиском, где достоверная информация выдаётся более качественно. Этот метод сработал в нерассуждающей модели o4, поэтому разработчики рассчитывают, что более продвинутому искусственному интеллекту это тоже поможет.

Комментарии