Возможный дубликат:
Excel в CSV с кодировкой UTF8
Сценарий: у меня есть файл excel, содержащий большое количество глобальных данных о клиентах. Я не знаю, какая кодировка использовалась при создании файла.
Вопрос: Как определить кодировку символов, используемую в файле excel, чтобы я мог правильно импортировать ее в другую часть программного обеспечения?
Для Excel 2010 это должен быть UTF-8. Инструкция от MS:
http://msdn.microsoft.com/en-us/library/bb507946:
“Основная структура документа документа SpreadsheetML состоит из элементов” Листы “и” Листы “, которые ссылаются на рабочие листы в рабочей книге. Для каждого рабочего листа создается отдельный XML файл. Например, SpreadsheetML для книги, которая имеет два листа имя MySheet1 и MySheet2 находится в файле Workbook.xml и отображается в следующем примере кода.
<?xml version="1.0" encoding="UTF-8" standalone="yes" ?>
<workbook xmlns=http://schemas.openxmlformats.org/spreadsheetml/2006/main xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships">
<sheets>
<sheet name="MySheet1" sheetId="1" r:id="rId1" />
<sheet name="MySheet2" sheetId="2" r:id="rId2" />
</sheets>
</workbook>
XML файлы рабочего листа содержат один или несколько элементов уровня блока, например SheetData. sheetData представляет таблицу ячеек и содержит один или несколько элементов Row. Строка содержит один или несколько элементов ячейки. Каждая ячейка содержит элемент CellValue, который представляет значение ячейки. Например, SpreadsheetML для первого рабочего листа в книге, который имеет только значение 100 в ячейке A1, находится в файле Sheet1.xml и показан в следующем примере кода.
<?xml version="1.0" encoding="UTF-8" ?>
<worksheet xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main">
<sheetData>
<row r="1">
<c r="A1">
<v>100</v>
</c>
</row>
</sheetData>
</worksheet>
“
Обнаружение кодировок ячеек: