Преобразование файла.txt в arff

Вопрос:

У меня есть текстовый файл (.txt), где в каждой строке есть твит. Каждый твит разделяется новой строкой. Я хочу загрузить файл в WEKA, но он поддерживает только.arff в качестве входных данных. Я собираюсь сгруппировать твиты, используя некоторые методы кластеризации, поэтому как преобразовать текстовый файл в arff.

Вот скриншот данных. enter image description here

Ответ №1

WEKA поддерживает CSV. Вы можете конвертировать текстовый файл в CSV либо с помощью кода, либо вручную, я рекомендую код. Затем просто импортируйте его в WEKA. После импорта, и если вы действительно хотите, преобразуйте его в.arff.

Посмотрите, как форматируется ваш текстовый файл. Затем напишите небольшую программу, которая анализирует файл и помещает , запятые для разделения значений. Не забудьте оставить заголовки, WEKA будет их использовать.

Оцените статью
TechArks.Ru
Добавить комментарий