Сомантикалық ұқсастыққа негізделген сөйлемдерді санаттауға

Менде бірегей ұсыныстар бар. Әр сөйлем үшін төмендегі мысалда айтылған қалған сөйлемдермен семантикалық ұқсастық баллын (0-ден 1-ге дейін) есептеймін.

Мысалы,

Dataset = {sen1, sen2, sen3, sen4,..., senN}

sen1 үшін, сополимді семантикалық ұқсастықты келесідей есептеп шығарамын.

sen1 and sen2 = 0.3
sen1 and sen3 = 0.7
sen1 and sen4 = 0.9
...
...
...
sen1 and senN = 1.0

Барлық сөйлемдерге ұқсас, семантикалық ұқсастық ұпайларын есептеймін.

Өйткені, мен жұптық мәнді аламын, бұл сөйлемдерді кластерлеу мүмкін бе? Сондай-ақ, менің жағдайымның ең сәйкес кластерлеу әдісі қандай?

(Менде ұқсастық мәніне негізделген сөйлемдерді кластерлеуді қалаймын, сондай-ақ 0,5-тен жоғары мәндерді семантикалық ұқсас сөйлемдер деп санаймын.)

0

1 жауаптар

Егер кіріс деректер элементтер арасындағы жұптық қашықтықтардың матрицасы болса, деректерді кластерлеу үшін қолдануға болатын бірнеше әдістер бар. Әдеттегідей, ең жақсы нұсқа сіздің нақты деректеріңізге байланысты, сондықтан ең жақсы деген сұраққа жауап беру қиын, бірақ келесі әрекеттердің бірін қолдануға болады:

  • The k-medoids algorithm is similar to the well-known k-means algorithm. After randomly choosing k of your sequences as initial cluster centers (initial medoids) and assigning each sequence to the closest medoid, you randomly reassign sequences to different clusters as long as the value of the cost function decreases.
  • Hierarchical clustering is another example of clustering algorithm whose input is a matrix of pairwise distances between sequences. In this case the output is a dendrogram.
  • Another option is to apply multidimensional scaling, a dimensionality reduction technique which input is a matrix of pairwise distances between sequences, to project your sequences into a 2D plane. Once you do that, you can apply any cluster algorithm you can think of, like for instance k-means.

Мен айтқанымдай, басқа да көптеген нұсқалар бар, бірақ олар қарапайым деп ойлаймын, ал мен бастайтындар.

1
қосылды
Менің ойымша, бұл арқылы сіз ақпарат жоғалтасыз. Мен мұны істеудің қандай да бір артықшылығын көрмеймін.
қосылды автор Mike Mazur, көзі
Көп рақмет. Сіз менің енгізуімнің диагоналі 1 болатын матрица болып табылады. Мен 0,5-ден жоғары ұпайларды семантикалық жағынан ұқсас сөйлемдер ретінде қараймын. Сондықтан, кластерлеуді орындамас бұрын, мәндерді 0,5 нөлден төмен деңгейде жасау керек пе айтып берсеңіз болады?
қосылды автор Smith, көзі