Когда вы читаете, не пытайтесь угадывать, что думает автор. Думайте сами. Рассмотрим, какие в pyspark имеются основные опции для чтения csv файлов: sep, quote, header, multiline Возможности данных опций можно продемонстрировать на примере чтения следующего файла: Как видим, намеренно в файле присутствует новый разделитель строки ($), имеется запись с переносом на следующую строку (text\n2), в качестве разделителя полей указана не запятая (";"): inferschema Если не указывать схему (подробнее читай здесь), то типы задаются как строки: Зададим inferSchema=True для автоматического определения типов: corrupt record В нашем наборе имеется ошибочная запись, для визуализации которой явно укажем схему: nan Зададим строку, обозначающюю нечисловое значение: Можем убедиться, что Spark определяет nan значение: null То же проделаем для незаполненного значения: infinite Вот пример задания строки с бесконечностью: Определились обе строки с бесконечностями, при этом положительная задана значением по у