Java ішіндегі сөздерді талдау үшін қандай кітапхананы қолдануға болады?

Мен көптеген санаттарға (күн, жыл, уақыт, атау, пунктуация, электрондық пошта және т.б.) сәйкес келетін сөздер түрін табуға тырысамын. Мен мұны (мен жұмыс істеді) табу үшін өзімнің кодты жасағанмын, бірақ мен ANTLR және JavaCC сияқты кітапханаларды таптым.

Мен бұл кітапханаларға арналған такс болып табылады? Егер иә болса, онда мен не қолдануға тиіспін, егер жоқ болса, онда бұл үшін пайдалануға болатын нәрсе бар ма?

Қандай ұсыныстар бар? JavaCC, ANTRL, тағы бірнеше нәрсе бар ма? Мен JavaCC кейбір сыныптар жасайтынын көріп тұрмын, бірақ такенкендеу секілді емес екенін қалайтын нәрселер бар.

0
Егер сізде Jython-ді қолдану мүмкіндігі болса, NLTK-ді осы арқылы пайдалана аласыз (және оны java-жобаңызда қолданыңыз)
қосылды автор Arnab Datta, көзі

1 жауаптар

Сізге қаншалықты қуатты парсерге байланысты. Егер сізде өте күшті нәрсе (JavaCC немесе ANTLR сияқты) қажет болса, олармен бірге жүріңіз және өзіңізді жасауға тырысыңыз.

Егер сізге бір нәрсе қажет болса, тұрақты түрде қарапайым сөздікті іздеу парсерін жасауға болады Java-дағы сөздерді немесе тіпті StringTokenizer (егер сіздің мысалыңыз өте қарапайым болса).

2
қосылды
Иә, менің ойымша, маған күшті нәрсе қажет, мен табиғи тілдерді өңдеуге дайынмын. Мен осы мәселе бойынша берілген мысалдар сияқты заттарды таба аламын?
қосылды автор Renato Dinhani, көзі
Ия, көптеген NLP кітапханаларын оқыдым, бірақ олар мен іздеймін. Идентификациялауға арналған таксом - бұл мен жасайтын маңызды процестің бөлігі ғана. Мен осы кітапханалардың жіңішке болуы маған қазір көмектеседі.
қосылды автор Renato Dinhani, көзі
Сонымен қатар, табиғи тілдерді өңдеу - күндерді, аттарды және т.б. табуға қарағанда тереңірек тақырып. НЛП-да тілдің элементтерімен ғана емес, тілдің мағынасы мен ниетін де істеу керек. НЛП үшін бұл мәселені шешуге арналған API/кітапханаларды іздегіңіз келуі мүмкін.
қосылды автор jefflunt, көзі