Иерархиялық кластерлеуді орындаудан бұрын орталықтандыру және масштабтау қажет пе?

Мен 100-ден астам пациенттердің үлгілерінен ақуыз туралы деректер жинаған кластерлік жобада жұмыс істеймін. Бұл деректер қалыпқа келтіріліп, журналдар қайта құрылды. Мақсат - олардың ұқсастықтарына негізделген үлгілерді кластерлеу, мен иерархиялық кластерлеуді қолданамын және қашықтан метрика және кластерлеу алгоритмдерінің комбинацияларын сынамын. (Біз қашықтан басқару әдісі немесе кластерлеу алгоритмдері туралы шешім қабылдамадық) Менің сұрағым орталықтандыру және масштабтаумен байланысты, деректерді масштабтауға және ортаға қоюға мүлдем керек пе, тіпті барлық деректер бірдей болған сценарийлерде де платформа және өлшем бірліктерімен бірге.

Осыған кірісіңізді бағалаңыз.

Рахмет

1

2 жауаптар

Менің сұрағым орталықтандыру және масштабтаумен байланысты, деректерді масштабтау және деректерді ортаға салу қажет, тіпті барлық деректер бірдей платформадан және өлшем бірліктерімен бірге келетін сценарийлерде де қажет.

Бұл сіздің деректеріңіздің түріне байланысты. Белгілі бір деректердің кейбір түрлері үшін масштабтау мен орталықты қажет етпеуі мүмкін. Жақсы мысал - геолокациялық деректер (бойлықтар мен ендік). Егер сіз қалаларды топтасаңыз, сіз олардың орналасуын ауқымдап, орталықтандыруға тура келмейді.

Әртүрлі физикалық өлшемдер немесе бірліктер бойынша деректер үшін, оның ауқымдылығы мен орталығын құру жақсы идея. Мысалы, көлік құралдарын кластерлеу кезінде деректерде дөңгелектер саны, есік саны, галлон үшін миль, ат күші және т.б. сияқты атрибуттар болуы мүмкін. Бұл жағдайда, сіз масштабтау мен ортаны жақсарту идеясы болуы мүмкін, себебі сіз арасындағы қарым-қатынасқа күмәнданасыз әр атрибут.

Осыған байланысты түйсігі, деректерді масштабтау және орталықсыздандыру қажет болмаса, көптеген кластерлеу алгоритмдері қашықтықты анықтауды талап ететіндіктен, үлкенірек маңыздылығы бар атрибуттар беруге болады.

Мәселеңіздің контекстінде мен пациенттің биіктігі, салмағы, жасына және т.б.

This answer on a similar question has more.

0
қосылды
Сіздің жауапыңыз үшін үлкен рахмет. Менің жағдайымызда 100 науқаста ~ 600 ақуыз деңгейін өлшедік. Менің мақсатым - олардың протеин деңгейіндегі ұқсастықтар негізінде пациенттерді кластерлеу. Физикалық өлшеулер/барлық ақуыздар үшін бірлік бірдей, сондықтан масштабтау маңызды болмайды. Біз барлық белоктарды қалыпқа келтірдік, сондықтан деректерді әлі күнге дейін ортаға салу мағынасы бар ма?
қосылды автор Purvaja Suresh, көзі
Ақуыз туралы деректерді қалыпқа келтіру үшін қандай рәсімді қолдандыңыз? Сіз не істегеніңізге байланысты деректерді қазірдің өзінде ортаға салған боларсыз. Сондай-ақ, бірліктер бірдей болғандықтан масштабтау қажет емес дегенді білдірмейді.
қосылды автор ukemi, көзі

Егер айнымалы мәндер теңдесі жоқ бірліктер болса, айнымалыларды масштабтау арқылы стандарттау керек. K-кластерлеу барлық бағытта «изотропты» болып табылады, яғни кластерлердің көп немесе аз болуы мүмкін. Масштабтау емес, сіз белгілі бір айнымалыларға салмақ қоясыз.

0
қосылды