Если вы читали прошлую статью, то помните: я заставил компьютер говорить голосом Джарвиса. Точнее, я так думал. А потом пришлось признать: голос-то вроде тот, но звучит как-то не так. Будто Джарвис простудился или его озвучивает мой младший брат. В общем, пришлось копать глубже. Спойлер: дело не в коде, а в том, чем я кормил нейросеть. Йо, народ! Это снова ECHO. После эйфории от первой победы (компьютер заговорил!) наступило утро похмелья. Я включил тестовые записи, переслушал раз пять и понял: тембр-то мой. Ну, то есть нейросеть старательно меняет высоту голоса, делает его ниже, но внутри всё равно слышно, что это я. Джарвис должен звучать бархатно, уверенно, с лёгким металлическим оттенком. А у меня получился я, только простуженный и с важным видом. Обидно? Ещё как. Но я же не ищу лёгких путей, да? Если коротко: нейросеть нужно кормить качественной едой. А я скормил ей сгенерированные фрагменты — насинтезировал через другую нейросеть фраз в стиле Джарвиса. Звучит логично? Нет. Потом