Екі кластер жиынтығын біріктіріңіз

Менің жаңалықтар мақалаларының екі түрлі жиынтығынан алынған екі тақырыптық тақырып бар.

Басқаша айтқанда, Cluster_1 = $ {x_1, x_2, ..., x_n} $ «X» газетінің негізгі жинағын қамтиды және Cluster_2 = $ {y_1, y_2, ..., y_n} $ негізгі тақырыптарды қамтиды «Y» жаңалықтар жинағының жиынтығы.

Енді кластерлерді төмендегі мысалда көрсетілгендей кластерлік атрибуттарды ескеріп, ұқсас/байланысты екі кластерде табуға тырысамын.

Example 1,
**X1 in Cluster_1** is mostly similar/related to **Y2 in Cluster_2**
**X2 in Cluster_1** is mostly similar/related to **Yn in cluster_2**
and so on.

Example 2:
News about Yet in Cluster_1 is mostly similar/related to News about Science in Cluster_2
News about Floods in Cluster_1 is mostly similar/related to News about Rains in Cluster_2

Мен кластерлердің екі жиынтығымен айналысатындықтан, екі түрлі кластердегі кластерлерді қосу үшін қолайлы әдіс/әдіс деген не еді?

4
Бұл екі түрлі бақылау топтары бар ма? Сол кеңістікте? Сол өлшемді кеңістік? Осы контекстте сізге «ең ұқсас/байланысты» деген не?
қосылды автор Karl, көзі
Сіздің кластерлеріңіз екі мақала бойынша Latent Dirichlet-ті бөлу сияқты тақырып үлгілеуінің нәтижесі ме және сіз екі газет арасындағы тақырыптарды салыстыра аласыз ба?
қосылды автор Karl, көзі
дәл жасырын dirichlet бөлінуі ма, себебі ол маңызды болып табылады.
қосылды автор Karl, көзі
Пікіріңізге рахмет. Мен сізге айтқан жоқ мәліметтерді қосу арқылы сұрақты өзгерттім.
қосылды автор Volka, көзі
Ия, сіз дұрыс.
қосылды автор Volka, көзі
Ия, менің кластерлер сияқты тақырыптар бар; Тақырыбы 1: 30% брокколи, 15% банан, 10% таңғы ас, 10% майлау, онда оны азық ретінде қабылдай аламын.
қосылды автор Volka, көзі

1 жауаптар

Екі LDA тақырыбын салыстыру үшін сіз шын мәнінде екі ықтималды дистрибуция арасындағы қашықтықты есептеуге тырысасыз.

Мұндай жағдайларда жиі қолданылатын осындай шаралардың бірі Hellinger Distance . $ Y_1 үшін $ x_1 $ тақырыбындағы ең жақын сәйкестікті табу үшін сіз $ x_1 $ және әрбір $ y $ тақырыбындағы Hellinger қашықтығын жуып тастасаңыз, ең төменгі мәнді алыңыз.

Бұл мағынада «ең ұқсас» тақырып қашықтан, субъективті түрде ұқсас болатындығына кепілдік жоқ екенін естен шығармаңыз.

5
қосылды
Жоқ, бірақ оны жүзеге асырудың көптеген жолдары бар. Олардың кейбіреулері мұнда талқыланады: gist.github.com/larsmans/3116927
қосылды автор Karl, көзі
Hellinger қашықтығы үшін sklearn кітапханасы бар ма?
қосылды автор Volka, көзі