SharePointCommunity
Die deutschsprachige Community für SharePoint, Microsoft 365, Teams, Yammer und mit Azure

Sponsored by

Willkommen im Forum Archiv.
Einträge sind hier nicht mehr möglich, aber der Bestand von 12 Jahren SharePoint-Wissen ist hier recherchierbar.




Nicht alle PDF-Dokumente werden gecrawlt

Unbeantwortet Dieser Beitrag hat 13 Antworten

Ohne Rang
45 Beiträge
J. Kuhn erstellt 14 Juli 2011 09:57
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Guten Morgen liebe Community,

ich habe folgendes Problem: Nicht alle PDF-Dokumente in einer Bibliothek werden gecrawlt. Der PDF-iFilter ist installiert und funktioniert soweit prima, man kann einige PDF's anhand von darin vorkommenden Schlüsselwörtern finden. Aber eben nicht bei allen. Was könnte die Ursache sein? Der Text ist natürlich markierbar, es handelt sich nicht um eingebettete Bilder etc.

Wäre für jeden Hinweis dankbar :-)

Grüße

Jakob

Alle Antworten

Ohne Rang
19231 Beiträge
Andi Fandrich Als Antwort am 14 Juli 2011 15:39
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Hat der Crawl-Account auch wirklich Rechte auf alle Dokumente? Welchen iFilter verwendet Ihr? Der von Adobe ist ziemlich zickig und lehnt viele PDFs als ungültig ab. Schaut einfach mal ins Crawl-Log.

Viele Grüße
Andi
af @ evocom de
Blog
Ohne Rang
45 Beiträge
J. Kuhn Als Antwort am 14 Juli 2011 15:42
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Wir verwenden den Adobe-iFilter, welcher wäre besser? Im Crawl-Protokoll ist nichts auffälliges in Bezug auf die betroffenen Dokumente zu sehen, außerdem hat das Konto die Rechte dazu. Werde nochmal genauer reinschauen, um sicher zu sein. Danke schon mal für die Anregung!

Ohne Rang
19231 Beiträge
Andi Fandrich Als Antwort am 14 Juli 2011 15:46
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

[quote user="J. Kuhn"]Wir verwenden den Adobe-iFilter, welcher wäre besser? [/quote]

Der von Foxit. Ist aber kostenpflichtig.

[quote user="J. Kuhn"]Im Crawl-Protokoll ist nichts auffälliges in Bezug auf die betroffenen Dokumente [/quote]

D.h. es gibt einen Eintrag, der besagt, daß sie erfolgreich indiziert wurden?

Viele Grüße
Andi
af @ evocom de
Blog
Ohne Rang
45 Beiträge
J. Kuhn Als Antwort am 14 Juli 2011 16:02
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Es wird im Protokoll angezeigt, dass die Seite, unter der sich die Dokumente befinden, erfolgreich gecrawlt wurden - explizit steht aber nirgends, dass gerade diese Dateien indiziert wurden. ALlerdings steht es auch nicht in den Warnungen und Fehler, von daher gehe ich aus, dass es in Ordnung ist. Oder sollte für jede einzelne Datei ein Eintrag vorhanden sein, der angibt, ob indiziert wurde?

Ohne Rang
19231 Beiträge
Andi Fandrich Als Antwort am 14 Juli 2011 16:06
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Ja, normalerweise taucht dort jede erfolgreich indizierte Datei auf. Bist Du sicher, daß die Rechte passen?

Viele Grüße
Andi
af @ evocom de
Blog
Ohne Rang
45 Beiträge
J. Kuhn Als Antwort am 14 Juli 2011 16:36
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Das Zugriffskonto für die Suche gehört zu der Besitzergruppe der Seite, die Berechtigung ist auf Vollzugriff. Muss ich sonstwo noch nachschauen? Vielleicht übersehe ich ja was.

Ohne Rang
19231 Beiträge
Andi Fandrich Als Antwort am 14 Juli 2011 16:48
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Das sollte reichen. Ich würde mir aber die Berechtigungen direkt auf eine betroffene Datei ansehen. Vielleicht wurde dort an den Rechten gedreht.

Viele Grüße
Andi
af @ evocom de
Blog
Ohne Rang
178 Beiträge
René Fritsch Als Antwort am 18 Juli 2011 12:03
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Bitte auch überprüfen, ob es sich bei den nicht indizierten PDFs evtl. über gescannte Dokumente handelt. Falls dies der Fall ist und nachträglich keine Schrifterkennung (OCR) durchgeführt wurde, wäre klar, warum die Volltextsuche keine Ergebnisse liefert.

 

Beste Grüße

René Fritsch

---

http://www.bridging-it.de
http://rene-fritsch.de 

Ohne Rang
45 Beiträge
J. Kuhn Als Antwort am 18 Juli 2011 15:17
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Wie Prüfe ich die Berechtigungen von SharePoint-Elementen?

Es handelt sich übrigens nicht um gescannte Dokumente, die Texte sind als "echte Texte" vorhanden, markierbar etc. Mich wundert dieses Verhalten...

Ohne Rang
19231 Beiträge
Andi Fandrich Als Antwort am 18 Juli 2011 16:09
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

[quote user="J. Kuhn"]Wie Prüfe ich die Berechtigungen von SharePoint-Elementen?[/quote]

Element marfkieren und entweder im Ribbon oder im Kontextmenü "Berechtigungen verwalten".

Viele Grüße
Andi
af @ evocom de
Blog
Ohne Rang
45 Beiträge
J. Kuhn Als Antwort am 22 Juli 2011 10:41
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Ich habe mal nachgesehen, aber es war soweit in Ordnung mit den Berechtigungen. Habe noch zum Test den Sucheaccount mit Vollzugriff hinzugefügt, aber es hat leider nicht geklappt. Mir ist noch aufgefallen, dass die betroffenen PDF's zerstückelte Texte haben, da ist wohl mit der Formatierung etwas nicht in Ordnung. Kann es sein, dass die PDF dadurch korrupt ist und der iFilter deswegen scheitert?

Ohne Rang
19231 Beiträge
Andi Fandrich Als Antwort am 22 Juli 2011 11:37
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Ja, das kann sein. Wie oben schon angemerkt, ist der Adobe iFilter ziemlich pingelig.

Viele Grüße
Andi
af @ evocom de
Blog
Ohne Rang
45 Beiträge
J. Kuhn Als Antwort am 5 Aug. 2011 13:56
SchlechtSchlechtIn OrdnungIn OrdnungDurchschnittDurchschnittGutGutSehr gutSehr gut

Verzeiht die späte Rückmeldung, ich habe das Problem nun gefunden: In der Registry war ein falscher Schlüssel gestanden unter

"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\ContentIndexCommon\Filters\Extension\"

Es sollte hier der Wert {E8978DA6-047F-4E3D-9C78-CDBE46041603} stehen. Daher wurde keine einzige PDF indiziert, nicht nur einige, wie ich dachte.

Vielen Dank an alle die geantwortet haben! Echt tolles Forum hier =)