32,7 тыс подписчиков
Помните, на днях в сеть попали исходники Яндекса и кто-то быстро нашёл огромный список матерных стоп-слов для Алисы?
Кто-то смеялся над конкретными фразами, кто-то удивлялся грубости кожаных мешков, а кто-то — обратил внимание на размер датасета. Одних только вариаций с матерными словами там оказалось аж 89 тысяч.
Так вот, вместо того, чтобы замалчивать историю, ребята из Яндекса решили открыто рассказать, чего им стоило обучить нейропомощника быть вежливым. Оказывается, это большая и кропотливая работа. И надеемся, что разработчикам, которые обрабатывали все эти матные изыски, оплатили психолога и турне по театрам, чтобы как-то это компенсировать.
Статья точно понравится тем, кто работает с большими данными. Но и в целом это просто интересная статья, которая лишний раз напоминает, что надо быть добрее. Даже к голосовому помощнику:
#яндекс #нейросети #bigdata
Около минуты
7 февраля 2023
20,8 тыс читали