| От | Richard Huxton |
|---|---|
| Тема | Re: Indexing MS/Open Office and PDF documents |
| Дата | |
| Msg-id | 4F625C7B.7090302@archonet.com обсуждение исходный текст |
| Ответ на | Re: Indexing MS/Open Office and PDF documents (Jeff Davis <pgsql@j-davis.com>) |
| Список | pgsql-general |
On 15/03/12 21:12, Jeff Davis wrote: > On Fri, 2012-03-16 at 01:57 +0530, Alexander.Bagerman@cognizant.com >> We have >> hard time identifying MS/Open Office and PDF parsers to index stored >> documents and make them available for text searching. > The first step is to find a library that can parse such documents, or > convert them to a format that can be parsed. I've used docx2txt and pdf2txt and friends to produce text files that I then index during the import process. An external script runs the whole process. All I cared about was extracting raw text though, this does nothing to identify headings etc. -- Richard Huxton Archonet Ltd
В списке pgsql-general по дате отправления:
Сайт использует файлы cookie для корректной работы и повышения удобства. Нажимая кнопку «Принять» или продолжая пользоваться сайтом, вы соглашаетесь на их использование в соответствии с Политикой в отношении обработки cookie ООО «ППГ», в том числе на передачу данных из файлов cookie сторонним статистическим и рекламным службам. Вы можете управлять настройками cookie через параметры вашего браузера