Найти в Дзене
Аналитика данных

Кодировка в файлах. DataLens

Оглавление

Кодировки в DataLens

DataLens поддерживает следующие кодировки:

  • utf-8
  • utf-16
  • windows-1251
  • utf-8-sig

При этом в Data Lens от Яндекса можно подключать файлы MS Excel только в формате CSV и XLSX.

Если загружаемый CSV-файл в другой кодировке, то при загрузке появится ошибка. Для исправления нужно изменить кодировку файла...

Изменение кодировки через Notepad++

Через программерский блокнот Notepad++ (или любой другой):

  1. Открываем файл с через Notepad++;
  2. Меняем кодировку на UTF-8 в меню сверху — «Кодировки».
  3. Жмём «Сохранить как» в меню «Файл».
  4. Имя файла указываем с расширением CSV.

Изменение кодировки через Python

Для изменения кодировки в с помощью python нужно прочитать файл, а потом сохранить:

# Импорт библиотеки Pandas
import pandas as pd
# Чтение CSV файла с указанием исходной кодировки
df = pd.read_csv('input.csv')
# Сохранение в новой кодировке
df.to_csv('output.csv', encoding='новая_кодировка', index=False)

Просто так изменить кодировку через блокнот для xlsx или xls файлов не получится, т.к. это бинарные файлы. Для этого нужно сначала прочитать файл в датафрейм, а потом сохранить с нужной кодировкой:

# Импортируем Pandas
import pandas as pd
# Чтение XLSX файла
df = pd.read_excel('input.xlsx')
# Сохранение в CSV с нужной кодировкой
df.to_csv('output.csv', encoding='новая_кодировка', index=False)

Определение кодировки файла через Python

Для определения кодировки файла можно использовать библиотеку chardet

| # Импортируем chardet
| import chardet
|
| with open('input.csv', 'rb') as f:
| result = chardet.detect(f.read())
chardet
chardet

Аргумент 'rb' указывает режим открытия файла:

  • r – означает "read" (чтение). Файл будет открыт только для чтения.
  • b – означает "binary" (двоичный). Файл должен быть открыт в двоичном режиме.