Apache Tika 1.0

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.
Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.
Основные изменения по сравнению с 0.10:

  • RTF: поддержка гиперссылок
  • MS Word: поддержка Unicode дефисов
  • Outlook: извлечение вложенных файлов
  • MS Office: увеличение скорости
  • OpenOffice: извлечение верхних и нижних колонтитулов
  • PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
  • Определение языка/кодировки текстов: добавлена поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков (русский язык и популярные в России кодировки поддерживаются и в предыдущих версиях Tika)
  • Работа и конфигурация в OSGi окружении
  • Удалены API, объявленные устаревшими в предыдущих версиях

Подробнее



Яндекс.Метрика
Счётчик ТЦ#65533;Ц LiveRSS: Каталог русскоязычных RSS-каналов