Кодировки в DataLens
DataLens поддерживает следующие кодировки:
- utf-8
- utf-16
- windows-1251
- utf-8-sig
При этом в Data Lens от Яндекса можно подключать файлы MS Excel только в формате CSV и XLSX.
Если загружаемый CSV-файл в другой кодировке, то при загрузке появится ошибка. Для исправления нужно изменить кодировку файла...
Изменение кодировки через Notepad++
Через программерский блокнот Notepad++ (или любой другой):
- Открываем файл с через Notepad++;
- Меняем кодировку на UTF-8 в меню сверху — «Кодировки».
- Жмём «Сохранить как» в меню «Файл».
- Имя файла указываем с расширением CSV.
Изменение кодировки через Python
Для изменения кодировки в с помощью python нужно прочитать файл, а потом сохранить:
# Импорт библиотеки Pandas
import pandas as pd
# Чтение CSV файла с указанием исходной кодировки
df = pd.read_csv('input.csv')
# Сохранение в новой кодировке
df.to_csv('output.csv', encoding='новая_кодировка', index=False)
Просто так изменить кодировку через блокнот для xlsx или xls файлов не получится, т.к. это бинарные файлы. Для этого нужно сначала прочитать файл в датафрейм, а потом сохранить с нужной кодировкой:
# Импортируем Pandas
import pandas as pd
# Чтение XLSX файла
df = pd.read_excel('input.xlsx')
# Сохранение в CSV с нужной кодировкой
df.to_csv('output.csv', encoding='новая_кодировка', index=False)
Определение кодировки файла через Python
Для определения кодировки файла можно использовать библиотеку chardet
| # Импортируем chardet
| import chardet
|
| with open('input.csv', 'rb') as f:
| result = chardet.detect(f.read())
chardet
Аргумент 'rb' указывает режим открытия файла:
- r – означает "read" (чтение). Файл будет открыт только для чтения.
- b – означает "binary" (двоичный). Файл должен быть открыт в двоичном режиме.