18 подписчиков

Google поручает некомпетентным подрядчикам факт-чекинг ИИ Gemini

20 декабря 202420 дек 2024

3 мин

🔍 Google дал указание подрядчикам, которые оценивают результаты работы искусственного интеллекта Gemini, не пропускать задания, даже если они выходят за рамки их компетенции. 📃 Раньше подрядчики могли пропускать такие задания, например, когда врача просили оценить юридические аспекты. Теперь же им нужно оценивать те части заданий, в которых они не разбираются, и добавлять примечания о том, что они не обладают знаниями в этой области. Пропускать задания можно только если в них отсутствует большой объём информации или присутствует вредоносный контент. 📝 Представитель Google заявил, что новая система оценки не должна повлиять на точность работы Gemini, так как оценщики должны давать обратную связь по тем аспектам, в которых разбираются. Это может быть обратная связь по форматированию, даже если специалист не разбирается в теме. Также компания отметила, что недавно был выпущен тест FACTS Grounding, который проверяет ответы LLM на достоверность и подробность. Нет сомнений в том, что иску

Оглавление

Сперва главное:
Теперь подробнее:

Сперва главное:

📃 Раньше подрядчики могли пропускать такие задания, например, когда врача просили оценить юридические аспекты. Теперь же им нужно оценивать те части заданий, в которых они не разбираются, и добавлять примечания о том, что они не обладают знаниями в этой области. Пропускать задания можно только если в них отсутствует большой объём информации или присутствует вредоносный контент.

📝 Представитель Google заявил, что новая система оценки не должна повлиять на точность работы Gemini, так как оценщики должны давать обратную связь по тем аспектам, в которых разбираются. Это может быть обратная связь по форматированию, даже если специалист не разбирается в теме. Также компания отметила, что недавно был выпущен тест FACTS Grounding, который проверяет ответы LLM на достоверность и подробность.

Теперь подробнее:

Нет сомнений в том, что искусственный интеллект всё ещё имеет немало недостатков, но можно было бы надеяться, что хотя бы его оценки будут точными. Однако на прошлой неделе компания Google якобы дала указание контрактным работникам, оценивающим Gemini, не пропускать ни одного запроса, независимо от их опыта, сообщает TechCrunch со ссылкой на внутренние инструкции.

Ранее компания Google поделилась предварительным просмотром Gemini 2.0 в начале этого месяца.

Компания Google, как сообщается, поручила GlobalLogic, аутсорсинговой фирме, чьи подрядчики оценивают результаты работы искусственного интеллекта, не позволять рецензентам пропускать запросы, выходящие за рамки их компетенции. Раньше подрядчики могли пропустить любой запрос, который выходил далеко за рамки их специализации — например, спросить врача о законах. В инструкциях говорилось: «Если у вас нет критических знаний (например, кодирования, математики) для оценки этого запроса, пожалуйста, пропустите это задание».

Теперь подрядчикам якобы дали указание: «Вы не должны пропускать запросы, требующие специальных знаний в определённой области», и что они должны «оценивать те части запроса, которые вы понимаете», добавляя примечание о том, что это не та область, в которой они разбираются.

По всей видимости, теперь контракты могут быть пропущены только в том случае, если отсутствует большой объём информации или если она содержит вредоносный контент, требующий специальных форм согласия для оценки.

Один из подрядчиков точно отреагировал на изменения, заявив: «Я думал, смысл пропуска в том, чтобы повысить точность, передав её кому-то более компетентному?»

Вскоре после первой публикации этой статьи компания Google сделала следующее заявление: «Специалисты по оценке выполняют широкий спектр задач для многих продуктов и платформ Google. Они предоставляют ценные отзывы не только о содержании ответов, но и о стиле, формате и других факторах. Оценки, которые они дают, напрямую не влияют на наши алгоритмы, но в совокупности являются полезным показателем, помогающим нам измерить эффективность работы наших систем».

Представитель Google также отметил, что новый алгоритм не обязательно должен приводить к изменениям точности Gemini, поскольку они просят оценщиков специально оценивать те части запросов, которые им понятны. Это может быть предоставление обратной связи по таким вопросам, как проблемы форматирования, даже если специалист по оценке не обладает специальными знаниями в данной области. Компания также указала на выпуск на этой неделе теста FACTS Grounding, который может проверять ответы LLM, чтобы убедиться, «что они не только фактически точны в отношении заданных входных данных, но и достаточно подробны, чтобы давать удовлетворительные ответы на запросы пользователей».