Java-дегі іздеу жүйесі

  1. I am trying to create a search engine just to learn and get more experience in Java.

    My intention is to store about 100 files on a server, a mixture of html, xml, doc, txt, and for each file to have meta data.

    SO when i search for a keyword, it should display a file with its meta description like Google.

    My question is, apart from html, can you add meta data to any other file formats, so that the meta description is shown.

  2. Would you be able to point me towards a Java search engine, that can search within file formats (txt,html) and display the result.

    I am working on my own code for this, but would like to have a look at other peoples code for some help?

10

8 жауаптар

Lucene is the canonical Java search engine.

Түрлі көздерден құжаттарды қосу үшін, Apache Tika бөлімін қараңыз және қызметімен толықтай жарылған жүйе үшін қараңыз./веб-интерфейстері, solr .

Lucene ерікті метадеректерді өз құжаттарымен байланыстыруға мүмкіндік береді. Tika автоматты түрде түрлі форматтағы метадеректерді жояды.

26
қосылды

1) Менің сұрағым html-дан бөлек мета-деректерді кез-келген басқа файл форматтарына қосуға мүмкіндік береді, мета сипаттамасы көрсетіледі.

Жалпы деректер базасын пайдаланып, метадеректерді құжатпен бірге сақтап қоясыз. Сіз дерекқор сұрауын пайдаланып, сөзді іздеуді жасай аласыз (мүмкін, SQL сияқты немесе ilike).

Файлдар қатты дискіде тек DB жолдарымен сақталуы немесе дерекқорға CLOB немесе BLOB ретінде қойылуы мүмкін, бұл сізде мәтін немесе екілік құжаттар бар ма.

2) Сіз файл пішімдерінде (txt, html) іздеуге болатын және нәтиже көрсететін Java іздеу жүйесімен жұмыс істей аласың ба?

Apache Lucene -ті қолданып көріңіз.

4
қосылды
  • Google ignores completely meta descriptions nowadays, because it has been either abused, or not filled with significant values
  • Lucene and/or Solr might do what you want, take a look.
  • 100 files is a very small amount, you won't have any problem to manage this amount of data in any way you like, if it's for exercise.
3
қосылды

... lucene және solr басқа адамдардың кодексіне қатысты ақылға қонымды.

3
қосылды

Lucene шынымен жақсы. Көптеген плагиндер бар (мысалы, сіз .doc-тан оқып шығуға мүмкіндік береді), бірнеше тілдерді және алгоритмдердің көптігін (мысалы, Левенштейн қашықтығы)

3
қосылды

Look at apache nutch

Apache Nutch is an open source web-search software project.

Нюч индекстеу үшін lucene/solr үстіне салынып, құжаттарды талдауға арналған, және жеке веб-шолғышты қосады.

3
қосылды

Сіз бірнеше кітапхананы пайдалануыңыз керек. Ең алдымен, көптеген адамдар бұрын айтылғандай, нақты іздеуді орындау үшін Lucene қолдануға болады. Алайда, Lucene тек кәдімгі мәтінді өңдейді, сондықтан сіз оны индекстелген файлдардан алуыңыз керек. Ол үшін Apache Tika қолдануға болады.

Жұмысты бастау үшін сіз Lucene Action 2 басылымында кітабын сатып алуыңыз керек. Ондағы мысалдардың көпшілігі әлі күнге дейін жаңартылған. Егер арзан болғыңыз келсе, сол беттегі берілген бастапқы кодты қарап шығуға болады.

3
қосылды

Apache Tika to extract metadata.

Apache Tika Apache Tika құралы ASFv2 лицензиялық ашық көзі болып табылады   сандық құжаттардан ақпаратты алу құралы. Тика рұқсат береді   іздеу жүйелерін, мазмұнды басқару жүйелерін және басқа да қосымшаларды қамтиды   цифрлық құжаттардың әртүрлі түрлерімен жұмыс істеуді оңай анықтауға мүмкіндік береді   барлық негізгі файл пішімдерінен метадеректер мен мазмұнды шығару.

2
қосылды