Чем больше данных, особенно качественно размеченных, — тем лучше результат работы глубинных нейронных сетей. Более того, они могут обобщать информацию и находить скрытые зависимости, строя что-то типа продукционных правил «если ..., то ...». Фактически, любая нейросеть при обучении делает это, так как по факту строит правила преобразования входных данных в выходные, что на более высоком уровне абстракции можно представить в виде продукций «Если вход принимает такие-то значения, то выход равен тому-то». Однако проблема в том, что даже если нейронная сеть делает подобные обобщения, то их представление скрыто в её глубинах в виде неявной информации, отображаемой только в весовые коэффициенты на связях между нейронами. Интерпретация этих коэффициентов очень затруднительна, если вообще возможна, особенно с учётом того, что одна и та же межнейронная связь может делать вклад в несколько различных правил. Если рассмотреть пример, приведённый в оригинальной статье, где введено слово «шместра»,