PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Java Desktop Search BettyIndex Vorabrelease



comrad
15.09.06, 20:03
Hi,

ein kleines Vorabrelease, weil ich fand, dass es bei mir nun einigermaßen brauchbar ist.
Keine Kommentare über den Namen *g* Mir fiel nix besseres ein ;)

Java Desktop Search mit Codenamen BettyIndex (*g*) ist eine Desktop Such-Engine, die bislang folgende Datentypen durchsuchen kann:

* Alle Text-Dateien (txt, logs, Quellcode etc pp)
* Fotos (Exif-Format) aus Jpeg-Dateien
* PDF-Dokumente
* OpenOffice-Dokumente

Die Informationen werden mittels Inotify unmittelbar aktualisiert, sobald sich auf dem Dateisystem etwas verändert (Erstellen, Löschen, Ändern). Die gesammelten Daten sind in einer MySQL-Datenbank gespeichert.

http://holarse-gaming.de/wp/index.php/java-desktop-search/

Gruss,
comrad

comrad
16.09.06, 00:14
MP3 und Ogg-Support ist noch hinzugekommen und durch die Verwendung von MySQLs FULLTEXT-Suche reduziert sich die durchschnittliche Suchzeit auf unter 1 Sekunde!

sirmoloch
17.09.06, 20:03
Gibts auch irgenwo den Quellcode für Leute, die daran rumfummeln wollen, weil sie soetwas schon seit ca. 1,5 Jahren programmieren wollen? :)

Sprich: Gibt es direkten Zugriff auf die aktuellen Quellen? :)

Edit:
Och schade, man kann ja nur localhost als Datenbank nutzen...:(
Commel, bitteeee. ;) Als ersten Patch bekommst du dann die komplette Auslagerung von Einstellungen in ein Property-File. ;)

comrad
17.09.06, 20:34
Das ist ja nur ein Vorabrelease, die ganzen benutzerfreundlichen Einstellungsmöglichkeiten gibts später sowieso ;) Quellen gibts auf Anfrage, später standardmässig.

comrad

dipesh
18.09.06, 05:09
Schönes Projekt. Danke schon einmal im voraus. Endlich ein schnelles beagle :-)

comrad
18.09.06, 12:41
Der Quellcode ist nun auch verfügbar, hab die Property-Files eingebaut und HSQLDB ebenso. HSQLDB macht allerdings ab 200MB Datenbankgrösse Speicherprobleme, genauso wie einige Oggs den Indexer ebenfalls abstürzen lassen.

ThomasG_gPM
20.09.06, 23:12
Hört sich doch schon mal ganz nett an - ich freu' mich bereits auf die fertige Version.
Vor allem die WM/DE-Unabhängigkeit gefällt mir. ;)

emwe
21.09.06, 08:04
Hallo,

klingt interessant. Ich begrüße vor allem die Entscheidung, HSQLDB einzusetzen, MySQL ist mir immer wieder ein Dorn im Auge.

Wenn HSQLDB Dir solche Probleme bereitet, hast Du die schon mal debuggt? Also erstmal Logfiles durchschauen, dann vielleicht mal in mit $Deiner-Lieblings-IDE debuggt? Hat die HSQLDB selbst ein Heap-Limit von 512MB oder die ganze Anwendung (HSQLDB läuft wahrscheinlich embedded und nicht als eigenener Server?)? Wenns die ganze Anwendung ist, kann der Fehler auch dort liegen, mit irgendwelchen Objektreferenzen, die noch im Speicher rumfliegen (zB aus den Suchergebnissen...).

Tut mir Leid, dass ich wegen Zeitmangels gerade nur Vermutungen anstellen und nicht einfach einen Patch schicken oder es mir ansehen kann.

Trotzdem finde ich das Konzept cool (v.a. die Openoffice.org und PDF-Unterstützung). Weiter so!

Gruß,

emwe

comrad
21.09.06, 10:11
Hi,

die HSQLDB-Datenbank läuft als eigener Serverprozess, damit die Software durchlaufend neue und veränderte Dateien mitbekommt (per inotify vom Kernel) und damit die Suche nebenbei mehrmals auch aufgerufen werden kann.

Den Speicher hab ich bereits auf 512MB maximum hochgesetzt, allerdings schien das Problem im Holen neuen Speichers gelegen zu haben, hab den minimalen Speicher für die Datenbank nun auf 256MB gesetzt und mit der DB keinerlei Probleme mehr (meine DB ist momentan 250MB gross :-) )

Das schöne an HSQLDB ist zudem noch, dass sie ohne extra Fulltext-Search-Index auskommt und trotzdem sogar noch schneller ist als MySQL mit Fulltext.

Derzeit funktioniert die Suche schon sehr gut, es gibt noch ein paar Probleme mit zuvielen Objekten, aber das werde ich noch lösen (durch Umschreiben, womit ich noch etliches an Speicher sparen kann). Die PDF-Indizierung ist momentan auch noch ein Problem, welches aber kein Showstopper ist. Die PDF-Libaries holen bei einem getText() auch die Bilder als "Text" (eigentlich Datenmüll) aus den Dokumenten, da muss ich noch sehen, was man da machen kann.

Aber es sieht sehr gut aus bislang und ich freue mich über den Zuspruch!

Gruss,
comrad