Надо сказать, любой язык учить тяжело на этапе, когда грамматику понимаешь, а вот слов знаешь маловато. Конечно, понимаешь, что именно на этом этапе язык и учится. Но с татарским особенность: дело в том, что самим взрослым татарам трудно войти в положение, каково это, знать их язык частично, ведь и татарский, и русский, и большинство слов и того, и другого языка они знают отлично, и уже успели забыть, каково это - ведь этот этап остался давно, в детстве. Отдаленно напоминает ситуацию чтение старых литературных произведений, там встречаются устаревшие, вышедшие из употребления слова. Но как понять самый начальный уровень владения?
Я по своей работе сейчас изучаю такую штуку, как нейросети. И есть отдельный подход, который занимается обучением некой модели на множестве текстов, которая затем порождает новый текст, по выявленным, как ей кажется, в нем закономерностям. На первых этапах обучения закономерности она выявляет не совсем точно, а затем учится все сильнее, пока не начнет "разговаривать" реально существующими словами, снижая уровень бреда. Вы и сами можете повторить этот эксперимент, если проследуете инструкции, и в полученном коде в классе CharacterIteration добавите следующие строчки в 138 строчку кода:
for(char c='А'; c<='я'; c++) validChars.add(c);
for(char c='Ә'; c<='ә'; c++) validChars.add(c);
for(char c='Ө'; c<='ө'; c++) validChars.add(c);
for(char c='Ү'; c<='ү'; c++) validChars.add(c);
for(char c='Һ'; c<='Һ'; c++) validChars.add(c);
for(char c='Җ'; c<='җ'; c++) validChars.add(c);
for(char c='Ң'; c<='ң'; c++) validChars.add(c);
а в классе LSTMCharModellingExample.java произведете замену скачиваемого текстового файла с пьесами Шекспира на текст пьесы Галиаскара Камала "Беренче театр" в txt (для красоты работы программы в текст файла надо скопипастить один и тот же текст несколько раз подряд, чтобы файл был побольше). Затем скомпилируйте и запустите эту программу.
Итак, в начале будет полная билеберда. Так татарский текст выглядит для совсем его незнающего.
дысе акты. ишеп юшса,,, Ардыкгыгеңлен, Басик шулынгай сөтен корик! Кибин борәр, кайдагаң дорыл, сең булыл, ди деңен. Әне икен, әннәрмлын Хикик титәлермләннән. (Кйкибтен кирдәм ютдинәдрасчыр ките колыбый, канып))? Уо бурмыр, таннинә, (ярыземә, кикәрдәракна шалың китенә. Флыкурма тулга ларыр, фичә бе
Видно, что алгоритм даже не уловил такую закономерность языка, как гармония гласных и возможность мягких и твердых гласных встретиться в слове равновероятна. Заглавные буквы встречаются где попало.
А вот так выглядит татарский текст для русскоязычного, уже выучившего некоторые основные слова и признающего их в тексте, но еще не усвоившего вообще никакую грамматику.
Вәли. Тулып). НВез! Зина инде, !
Биби. Һа, ямта илат. Акый, миңа бул!
Биби. Шул калып!
Гафифә. Бер барып чыгынмыл ул, кифтәтен әйтәреде барган битрек. Ул.
Вот уже посложнее. Вроде бы большинство слов знакомые, только совсем изредка встречаются подозрительно непонятные слова, но почему-то текст никак не сложится в какой-то смысл.
Факиә. Без чыга.
Факиә - Хәбибрахманның ни эшлә, мин бармыйм!
Биби. Ник, килер миңа бер кереп күр котырып утыралар.
Гафифә. Аңгыра-кыйган идәк! (Биби киен итем! Мин сезнең инде, торъгә җә бул, барам.
А вот практически по-татарски звучащие предложения, алгоритм уже почти вошел в переобучение и кидает готовые куски из изначального текста, но смысла пока нет, да и не должно получиться на такой простой модели :) Так и для довольно хорошо выучивших татарский русскоязычных порой звучит предложение, в котором все слова понятны, а смысл - нет. Это происходит из-за существования устойчивых сочетаний, фразеологизмов, которые есть и в русском языке, но часто совсем другие там.
Факиә. Һи, аңгыра! Әйкәллә! Мәхәббәтсез!
Фатыйх. Уйнат шулай булгач, инде анда да торган башыма бүген кетәреп бирә.
А вот тут можно почитать оригинальный текст пьесы. На мой взгляд, "Беренче театр" ("Первый театр") Галиаскара Камала идеальное произведение, своеобразный чек-лист на хорошее знание татарского языка. Если вы при чтении его не находите новых, еще неизученных элементов грамматики, а новые слова для вас встречаются всего чуть чуть, то вы очень и очень хорошо понимаете татарский язык. В отличие от других произведений того же возраста (а пьесе 110 лет), в ней нет книжных высокопарных слов, а только живой разговорный язык казанцев. Именно поэтому пьесы гораздо важнее, чем стихи и книги в качестве материалов для изучения татарского.