101 подписчик

Кодировка в файлах. DataLens

12 февраля 202512 фев 2025

1 мин

DataLens поддерживает следующие кодировки: При этом в Data Lens от Яндекса можно подключать файлы MS Excel только в формате CSV и XLSX. Если загружаемый CSV-файл в другой кодировке, то при загрузке появится ошибка. Для исправления нужно изменить кодировку файла... Через программерский блокнот Notepad++ (или любой другой): Для изменения кодировки в с помощью python нужно прочитать файл, а потом сохранить: # Импорт библиотеки Pandas

import pandas as pd # Чтение CSV файла с указанием исходной кодировки

df = pd.read_csv('input.csv') # Сохранение в новой кодировке

df.to_csv('output.csv', encoding='новая_кодировка', index=False) Просто так изменить кодировку через блокнот для xlsx или xls файлов не получится, т.к. это бинарные файлы. Для этого нужно сначала прочитать файл в датафрейм, а потом сохранить с нужной кодировкой: # Импортируем Pandas

import pandas as pd # Чтение XLSX файла

df = pd.read_excel('input.xlsx') # Сохранение в CSV с нужной кодировкой

df.to_csv('output.csv', encoding='нова

import pandas as pd # Чтение CSV файла с указанием исходной кодировки

df = pd.read_csv('input.csv') # Сохранение в новой кодировке

import pandas as pd # Чтение XLSX файла

df = pd.read_excel('input.xlsx') # Сохранение в CSV с нужной кодировкой

df.to_csv('output.csv', encoding='нова

Оглавление

Кодировки в DataLens
Изменение кодировки через Notepad++
Изменение кодировки через Python

Кодировки в DataLens

DataLens поддерживает следующие кодировки:

utf-8
utf-16
windows-1251
utf-8-sig

При этом в Data Lens от Яндекса можно подключать файлы MS Excel только в формате CSV и XLSX.

Если загружаемый CSV-файл в другой кодировке, то при загрузке появится ошибка. Для исправления нужно изменить кодировку файла...

Изменение кодировки через Notepad++

Через программерский блокнот Notepad++ (или любой другой):

Открываем файл с через Notepad++;
Меняем кодировку на UTF-8 в меню сверху — «Кодировки».
Жмём «Сохранить как» в меню «Файл».
Имя файла указываем с расширением CSV.

Изменение кодировки через Python

Для изменения кодировки в с помощью python нужно прочитать файл, а потом сохранить:

# Импорт библиотеки Pandas
import pandas as pd

# Чтение CSV файла с указанием исходной кодировки
df = pd.read_csv('input.csv')

# Сохранение в новой кодировке
df.to_csv('output.csv', encoding='новая_кодировка', index=False)

Просто так изменить кодировку через блокнот для xlsx или xls файлов не получится, т.к. это бинарные файлы. Для этого нужно сначала прочитать файл в датафрейм, а потом сохранить с нужной кодировкой:

# Импортируем Pandas
import pandas as pd

# Чтение XLSX файла
df = pd.read_excel('input.xlsx')

# Сохранение в CSV с нужной кодировкой
df.to_csv('output.csv', encoding='новая_кодировка', index=False)

Определение кодировки файла через Python

Для определения кодировки файла можно использовать библиотеку chardet

| # Импортируем chardet
| import chardet
|
| with open('input.csv', 'rb') as f:
| result = chardet.detect(f.read())

Аргумент 'rb' указывает режим открытия файла:

r – означает "read" (чтение). Файл будет открыт только для чтения.
b – означает "binary" (двоичный). Файл должен быть открыт в двоичном режиме.