Может ли раздел "Данные" файла ARFF использовать пространство вместо запятых?

Вопрос:

У меня есть большой набор данных с атрибутами в табличной форме, как показано ниже

userid movieid rating

2         34    5
4         11    3

Мне нужно ввести эти значения в раздел данных файла ARFF, чтобы проанализировать его с помощью программного обеспечения weka для машинного обучения. Но нормальный формат, который поддерживает arff, выглядит следующим образом

  5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa

Атрибуты разделены запятой. Всегда ли arff нужна запятая или нормально ли ее разделять пробелами или вкладками?

Лучший ответ:

Значения атрибутов для каждого экземпляра раздела данных всегда разделяются запятыми (версия разработчика ARFF):

Каждый экземпляр представлен в одной строке с возвратом каретки, обозначающим конец экземпляра. Знак процента (%) вводит комментарий, который продолжается до конца строки.

Значения атрибутов для каждого экземпляра разделяются запятыми. За запятой может следовать ноль или более пробелов. Значения атрибутов должны отображаться в том порядке, в котором они были объявлены в разделе заголовка (т.е. Данные, соответствующие n-му объявлению @attribute, всегда являются n-м полем атрибута).

Недостающее значение представлено одним вопросительным знаком

В аналогичной ситуации я нашел weka-convert (утилита командной строки Python) очень полезной.

Оцените статью
TechArks.Ru
Добавить комментарий