SharePointCommunity

Die deutschsprachige Community für SharePoint, Microsoft 365, Teams, Yammer und mit Azure

Crawling von Dateiserver optimieren

Dieser Beitrag hat 7 Antworten

26 Beiträge

Erich Han erstellt 18 Aug. 2010 09:08

Hallo,

ich bin gerade dabei SharePoint 2010 in unserer Firma einzuführen.

Ein ganz wichtiges Feature ist für uns die Suche (wurde uns als Enterprise Search verkauft), nicht nur innerhalb des SharePoint Contents sondern vorallem auch der Inhalte auf unserem Dateiserver(n).

Dazu habe ich auch die externen Content Sourcen eingebunden und die Crawls eingeplant.

Nun die erste Frage: Wann soll ich für die Dateiserver einen Full crawl und wann einen Incremental crawl ausführen?

Wir haben insgesamt fast 1TB Daten. Das Crawlen (auch der inkrementelle Crawl) dauert mehrere Stunden. D.h. genau um diese Dauer sind die Suchergebnisse immer veraltet.

Gibt es da eine Möglichkeit dies zu optimieren?

Die Dateiserver sind Windows-Server (2003 bzw. 2008). Gibt es da nicht eine Möglichkeit, dass diese Server an den SharePoint Server berichten wenn sich irgendwo eine Datei geändert hat bzw. wenn einen neue hinzugefügt wurde oder eine gelöscht wurde?

Dann wären diese endlosen Crawls nicht notwendig und der Crawl-Index wäre viel aktueller!

Ich bin für jeden Hinweis dankbar!

Erich

Alle Antworten

19231 Beiträge

Andi Fandrich Als Antwort am 18 Aug. 2010 09:28

Das kannst Du nicht ändern, d.h. der Index wird nur durch die Crawls aktualisiert.

Ein inkrementeller Crawl von 1TB sollte allerdings nicht unbedingt mehrere Stunden dauern, aber das hängt von vielen Faktoren ab: Anzahl der Dateien, Anzahl der Änderungen seit letztem Crawl, Anzahl der unterschiedlichen Berechtigungen, ...

Viele Grüße
Andi

af @ evocom de
Blog

26 Beiträge

Erich Han Als Antwort am 18 Aug. 2010 14:23

Ich finde so ein Ansatz wäre um einiges intelligenter, weil das Crawlen über riesige Datenmengen in denen sich nur weniger geändert hat eigentlich sinnlos ist.

Vielleicht ist unsere Umgebung noch optimierbar, aber zur Zeit ist die Suche nicht praxistauglich. Ich möchte nicht allen meinen Anwendern erklären müssen warum die Suchergebnisse einen halben Tag verzögert aktualisiert werden.

Kann mir jemand sagen was der Unterschied zwischen einem Full und einem Incremental Crawl ist?

Ist ein Incremental Crawl für externe Webseiten (andere Webs im Intranet) möglich bzw. macht dieser überhaupt Sinn? Speziell bei dynamischen Webseiten mit Inhalten aus Datenbanken.

Erich

19231 Beiträge

Andi Fandrich Als Antwort am 18 Aug. 2010 14:32

[quote user="Erich Han"]Unterschied zwischen einem Full und einem Incremental Crawl [/quote]

Ein Full Crawl baut den gesamten Index komplett neu auf. Beim Incremental Crawl werden nur die Unterschiede seit dem letzten Crawl erfaßt (was deshalb relativ schnell gehen kann).

Ganz am Anfang und bei allen größeren Änderungen (z.B. Einbeziehung neuer Dateitypen) muß ein Full CRawl gemacht werden. Danach reicht dann der inkrementelle.

[quote user="Erich Han"]Ist ein Incremental Crawl für externe Webseiten (andere Webs im Intranet) möglich bzw. macht dieser überhaupt Sinn?[/quote]

Das läßt sich so pauschal nicht sagen. Wenn die Inhalte der Suche über SharePoint zugänglich gemacht werden sollen, dann ja. Man nennt das auch Enterprise Search, d.h. eine einzige Stelle an der ich nach allen relevanten Informationen suchen kann, egal wo sie liegen.

Viele Grüße
Andi

af @ evocom de
Blog

26 Beiträge

Erich Han Als Antwort am 18 Aug. 2010 14:55

Um zu erkennen, ob sich eine Datei geändert hat muss sich der Crawler aber trotzdem jede Datei, zumindest den Zeitstempel der letzten Änderung, anschauen.

D.h. solange keine Konfigurationsänderungen gemacht werden, ist kein neuer Full Crawl notwendig?Ich habe nämlich zuerst geplant einmal wöchentlich einen Full Crawl für die externen Dateiserver zu machen.

@Crawl für externe Webseiten

Ich habe eine externe Webeite als externen Content Source eingebunden, um darin auch suchen zu können. Was ich gemeint habe ware, dass es bei diesen Webseiten ja keinen Änderungszeitstempel gibt den sich der Crawler anschauen könnte um zu entscheiden ob sich was geändert hat. Er muss sich so oder so jedesmal die gesamte Seite laden und den Inhalt analysieren. Das Codefile (zB xyz.php) mag sich ja nicht geändert haben, aber der Inhalt ist ja möglicherweise trotzdem ein anderer.

Oder liege ich da falsch?

19231 Beiträge

Andi Fandrich Als Antwort am 18 Aug. 2010 15:02

[quote user="Erich Han"]Um zu erkennen, ob sich eine Datei geändert hat muss sich der Crawler aber trotzdem jede Datei, zumindest den Zeitstempel der letzten Änderung, anschauen.[/quote]

Das stimmt und deshalb kann das bei vielen Dateien auch etwas dauern. Nicht geänderte Dateien müssen aber nicht geöffnet und analysiert werden.

[quote user="Erich Han"]solange keine Konfigurationsänderungen gemacht werden, ist kein neuer Full Crawl notwendig?[/quote]

Richtig.

Wie das bei externen Webseiten aussieht, weiß ich ehrlich gesagt nicht genau. An die eigentlichen Dateien (*.php) kommt der Crawler ja nicht ran. Er sieht nur das Ergebnis, also das erzeugte HTML. Gibt es nicht einen http-Header, der das Datum der letzten Änderung mitteilt?

Viele Grüße
Andi

af @ evocom de
Blog

26 Beiträge

Erich Han Als Antwort am 1 Sept. 2010 18:05

Zum Thema Crawl-Performanz habe ich ein interessantes Dokument gefunden:

http://dl.dropbox.com/u/9514472/SearchforSPServer2010CapacityPlanningDoc.docx

Full Crawl von Dokumenten auf einem Dateiserver

im Small Farm Szenario: ~ 120 Items/ Sekunde
im Medium Farm Szenario: ~140 Items/ Sekunde

Ich schaffe zur Zeit ~ 25 Items/ Sekunde auf einem Testserver auf dem alle Dienst und die DB läuft.

Ich denke ein eigener DB Server würde schon einiges bringen.

Interessant wären Referenzwerte von Microsoft zu Incremental Crawls, zB wenn sich kein Dokument geändert hat.

48 Beiträge

swi Als Antwort am 9 Sept. 2010 23:11

Kurze Zwischenbemerkung:

Die Performance hängt doch u.a. auch von den gecrawlten Filetypen
und den installierten IFiltern ab, oder ?

So gibt es ja erhebliche Performanceunterschiede zwischen den
PDF-IFiltern von Adobe und Foxit.
Bei einer "Battle" war der Foxit ca. 6 bis 10 mal schneller...und genauer.

Gruß

Stephan

CC BY-NC-ND - Michael Greth

Datenschutzerklärung

Sponsored by

Crawling von Dateiserver optimieren

Dieser Beitrag hat 7 Antworten

Alle Antworten