1090 подписчиков

Gemini проверяет научные статьи физиков: когда ИИ становится peer reviewer

17 мая17 мая

3 мин

Профессор физики публично признался, что регулярно использует Google Gemini для проверки своих научных работ перед отправкой в журналы. Заявление от 9 мая на Hacker News вызвало бурную дискуссию о роли искусственного интеллекта в академической валидации — практике, которая ещё три года назад казалась фантастикой. Этот случай стал катализатором широкого обсуждения границ применения ИИ в научной работе и вызвал неоднозначную реакцию академического сообщества. Ситуация выглядит парадоксально: языковые модели, которые 3-4 года назад не могли надёжно решать задачи школьного уровня, сегодня анализируют исследовательские работы. Прогресс действительно впечатляет — на специализированном бенчмарке CritPt, построенном на неопубликованных задачах исследовательского уровня по физике, модель o3 полтора года назад показывала результат 1,4 процента, а GPT 5.4 в режиме xhigh достигла 23,4 процента. Frontier-модели пока далеки от полного решения, но траектория развития очевидна. Более того, последняя

Ситуация выглядит парадоксально: языковые модели, которые 3-4 года назад не могли надёжно решать задачи школьного уровня, сегодня анализируют исследовательские работы. Прогресс действительно впечатляет — на специализированном бенчмарке CritPt, построенном на неопубликованных задачах исследовательского уровня по физике, модель o3 полтора года назад показывала результат 1,4 процента, а GPT 5.4 в режиме xhigh достигла 23,4 процента. Frontier-модели пока далеки от полного решения, но траектория развития очевидна. Более того, последняя версия Gemini 3.1 Pro демонстрирует 77,1 процента на бенчмарке ARC-AGI, что свидетельствует о значительном прогрессе в области логического рассуждения и абстрактного мышления.

Однако недавнее тестирование от выявило критическую проблему: команда экспертов проверила пять популярных нейросетей на способность находить научную литературу. Задача была простой — найти 20 свежих статей 2022-2026 годов по узкой теме и проверить их реальное существование. Результаты оказались значительно хуже ожидаемых. Исследователи оценивали достоверность (существуют ли авторы, журнал и сама статья) и точность DOI (ведёт ли идентификатор к реальной публикации). Детали не раскрываются, но вывод однозначен: нейросети пока не справляются с ролью надёжного библиографа, что особенно критично для академической работы, где точность цитирования является фундаментальным требованием.

Параллельно Google развивает специализированные инструменты для научной работы. 21 апреля компания запустила Deep Research и Deep Research Max на базе Gemini 3.1 Pro — автономных исследовательских агентов с поддержкой MCP и нативными графиками. Deep Research Max достиг 93,3 процента на бенчмарке DeepSearchQA, демонстрируя качественный скачок в способности систематизировать информацию и проводить глубокий анализ научных данных. Эти агенты способны автономно исследовать сложные темы, синтезировать информацию из множества источников и представлять результаты в структурированном виде.

8 мая Google представила Notebooks в Gemini для аспирантов — AI-workspace с синхронизацией NotebookLM и тарифами на 50, 100, 300 и 600 источников, превращая подготовку университетских заявок в структурированный процесс. Этот инструмент специально разработан для студентов магистратуры и аспирантов, позволяя им эффективно организовывать исследовательские материалы, создавать заметки и систематизировать знания. Интеграция с NotebookLM обеспечивает бесшовную работу с большими объёмами академической литературы.

Вопрос не в том, могут ли ИИ-системы помогать учёным — они уже это делают. Вопрос в границах применения. Использование Gemini для первичной проверки логики, выявления противоречий или поиска упущенных аспектов — разумная практика. Но полагаться на модель как на финального валидатора, особенно учитывая проблемы с галлюцинациями и проверкой источников, рискованно. Академическое сообщество стоит перед необходимостью выработать чёткие протоколы использования ИИ в peer review, где технология усиливает, но не заменяет экспертную оценку. 🔬

#ИскусственныйИнтеллект #НаучныйМетод #Gemini #PeerReview #АкадемическаяЭтика