Google: лучшая модель ИИ достигает точности лишь 69% по фактам
Исследование Google DeepMind показало, что даже самые продвинутые модели искусственного интеллекта совершают ошибки почти в каждой третьей фактической информации. Это важное предупреждение для бизнеса и пользователей, рассчитывающих на точность ИИ.
На этой неделе команда Google DeepMind представила новый тестовый набор под названием FACTS Benchmark Suite, который оценивает, насколько надежно модели искусственного интеллекта отвечают на вопросы с фактической точностью. Тест охватывает четыре ключевых области: ответы на факты из внутренней базы знаний, эффективное использование интернет-поиска, аргументацию на основе длинных документов и интерпретацию изображений.
Результаты показали, что лучшая на сегодняшний день модель Google Gemini 3 Pro достигает точности 69%. Для сравнения, другие ведущие ИИ-модели показывают значительно меньшую точность. Это означает, что примерно каждый третий факт, который выдает такая модель, может быть ошибочным.
Для журналистики и бизнеса этот показатель тревожен. Как отметил эксперт из области редакторской работы, подобная точность была бы недопустимой для профессиональных репортеров. Несмотря на скорость и гладкость генерации текста, ИИ пока не может гарантировать надежность информации, особенно когда речь идет о сложных, специализированных темах, требующих глубокого анализа и точного подтверждения.
В Израиле, где технологии активно внедряются в медицинские, финансовые и юридические сферы, такие ограничения ИИ имеют особую важность. Малейшая ошибка в данных может привести к серьезным последствиям, например, при юридическом консультировании или диагностике.
Недавний пример из США, когда юридическая фирма уволила сотрудника за использование ChatGPT, сгенерировавшего фиктивные судебные прецеденты, подчеркивает риски слепого доверия моделям ИИ.
FACTS Benchmark Suite — это не только критика, но и дорожная карта для улучшения: Google намерена с помощью подобных исследований ускорить прогресс в повышении точности искусственного интеллекта. Однако пока вывод однозначен — ИИ становится лучше, но в вопросах фактической достоверности еще далек от совершенства.
