NLTK Vader-тың ойлау талдауы үшін машина оқу классификаторын біріктіру

Менің университеттік жобаның бөлігі ретінде, мен NLTK Vader (SentimentIntensityAnalyzer) нәтижелерін Твиттердегі деректерді болжау үшін машина оқытуға үйренген классификаторымен біріктіруге тырысып жатқанымда, көңіл-күй талдау моделін зерттеймін/дамытамын.

Detailed description -

Тілектерді оң, теріс немесе бейтарап деп жіктеу үшін машинада оқу классификаторын және NLTK Vader көңіл-күйін талдауды біріктіруге тырысамын.

Мен жасағаным -

  1. Деректерді тазартты ( Niek Sanders twitter corpus )

  2. 80:20 жаттығуына бөліңіз: сынақ коэффициенті

  3. Tfidf сөздермен ерекшеліктердің сирек матрицасын жасау үшін пайдаланылған TfidfVectorizer. Бағандардың саны таза деректердегі сөздердің санына тең.

  4. Бұл векторлық матрицаны scikit-learn арқылы классификаторларды оқыту және тестілеу үшін пайдаланыңыз.

Classifiers used - This same vector matrix is being used to train - KNN, Random forest, Naive Bayes, SVM, Artificial Neural Network and Convolutional Neural Network.

Қазір NLTK Vader (SentimentIntensityAnalyzer нәтижелерін) біріктіруге тырысқанда негізгі күмән туады.

Мен не істеп жатырмын - 3-қадамдан бастап, tfidf векторлық матрицасында мен 2 баған қосып, NLTK берген твитке арналған оң және теріс полярлық нәтиже қосып жатырмын, сондықтан енді векторлық матрицада 2 жаңа баған бар n + 1 (НЛТК-ның твиттердің жалпы оң полярлығы), n + 2 (NLTK-ның твитке жалпы теріс полярлығы) және ұқсас -

    0      1     2     3     4     5     6     7  ......... |  n+1    |   n+2
------------------------------------------------------------|---------|----------
    0.4   0.3   0.4   0.1   0.5   0.3   0.2   0.4 ......... |  0.345  |  0.345
    0.5   0.3   0.2   0.8   0.3   0.6   0.4   0.5 ......... |  0.765  |  0.523
    0.6   0.4   0.1   0.7   0.8   0.8   0.2   0.2 ......... |  0.392  |  0.664
    0.2   0.9   0.7   0.4   0.9   0.9   0.8   0.5 ......... |  0.832  |  0.658
    0.9   0.5   0.9   0.7   0.3   0.2   0.2   0.5 ......... |  0.273  |  0.283
    0.5   0.2   0.2   0.7   0.2   0.1   0.6   0.6 ......... |  0.505  |  0.194
    0.4   0.3   0.2   0.3   0.3   0.9   0.5   0.5 ......... |  0.102  |  0.927
    0.1   0.8   0.1   0.2   0.1   0.5   0.2   0.7 ......... |  0.735  |  0.455

Question - So is it correct to add it this way?

Сонымен қатар, осы полярлықтарды екілік мәндерге түрлендіріп, 0 мен 1-ді пайдаланып жалпы көңіл-күйдің оң, теріс немесе бейтарап екенін білуге ​​болар еді.

Note - I am representing 3 categories(positive, negative or neutral) using 2 columns to avoid dummy variable trap.

Дегенмен ол классификаторлардың жалпы дәлдігін 1-2% шамалы шама бойынша арттырды.

But am I doing it right? If not, kindly let me know how can I collaborate the two mentioned above, i.e. NLTK Vader results with Machine Learning classifiers.

2
Мен сіздерге бір жылдан кейін жауап беремін, бұл сіз үшін әлі де өзекті. Сонымен, мен сіздің лауазымыңызбен кездестім, сол кезде мен сол мәселеге тап болдым. Мен қытай тіліндегі әлеуметтік медиа үшін көңіл аудару талдауларын зерттеп жатырмын. Менің бірінші базалық элементім үшін, Вайдобо үшін көңіл-күйді болжау мақсатымен қытай тілін VADER-тің өзіме енгіздім. Кейбір өзгерістермен ~ 90% дәлдікпен жақсы жұмыс істейді. Мен сенімділік болжамдарын жасау үшін кейбір POS ережелерін енгіздім, бірақ, өкінішке орай, қытай тілі ағылшын тілінен анағұрлым күрделірек және жақсы лексика жоқ. Сондықтан, мен қалаймын
қосылды автор cordo, көзі

Жауап жоқ

0