Перейти к содержанию

Системы поиска


Рекомендуемые сообщения

Несмотря на то что тема много раз обсуждалась, предлагаю повториться - форум стал шире, сто голов хорошо триста лучше:)

Накапливается очень много данных в различных текстовых форматах от ПДФ и РТФ до Экселя. В них все - люди события факты номера всего и вся.

меня все больше беспокоит формат хранения данных и дальнейшего их поиска с целью выявления связей, событий с участией уже прошедших где-либо объектов. Масса всякоразных таблиц. Далеко не все документы хоть как- то структурированы.

Бесконечно забиваемую суперструктурированную БД с сотней полей зводить бесполезно - людей не хватит в нее ежедневно все заталкивать.

Простенькая программа - Coprenic Desktop Search слабовата для таких целей.

Что можете посоветовать из индексирующих поисковиков?

Может посоветуете что-нибудь профессиональное - а-ля Семантический Архив?

Что используете в своей работе?

Есть ли серверные приложения с клиентской частью для подобных целей?

Что скажете про Cros (кстати он же есть клиент-серверный)?

Прошу уважаемых коллег поделиться опытом, высказать экспертное мнение и помочь скромному любопытствующему с выбором:)

 

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 21
  • Создана
  • Последний ответ
Несмотря на то что тема много раз обсуждалась, предлагаю повториться - форум стал шире, сто голов хорошо триста лучше:)

Накапливается очень много данных в различных текстовых форматах от ПДФ и РТФ до Экселя. В них все - люди события факты номера всего и вся.

меня все больше беспокоит формат хранения данных и дальнейшего их поиска с целью выявления связей, событий с участией уже прошедших где-либо объектов. Масса всякоразных таблиц. Далеко не все документы хоть как- то структурированы.

Бесконечно забиваемую суперструктурированную БД с сотней полей зводить бесполезно - людей не хватит в нее ежедневно все заталкивать.

Простенькая программа - Coprenic Desktop Search слабовата для таких целей.

Что можете посоветовать из индексирующих поисковиков?

Может посоветуете что-нибудь профессиональное - а-ля Семантический Архив?

Что используете в своей работе?

Есть ли серверные приложения с клиентской частью для подобных целей?

Что скажете про Cros (кстати он же есть клиент-серверный)?

Прошу уважаемых коллег поделиться опытом, высказать экспертное мнение и помочь скромному любопытствующему с выбором:)

 

Если речь о софте для индексирования большого количества разноформатных документов и последующего локального смыслового поиска, можно попробовать "Архивариус 3000". Меня вполне устраивает.

Ссылка на комментарий
Поделиться на другие сайты

А в чем особенности этих поисковых систем?

есть ли язык запросов?

есть ли нечеткий поиск?

можно обо всем поподробнее. Прошу высказать мнение и поделиться опытом.

Ссылка на комментарий
Поделиться на другие сайты

Если речь о софте для индексирования большого количества разноформатных документов и последующего локального смыслового поиска, можно попробовать "Архивариус 3000". Меня вполне устраивает.

Тоже недавно перешел на архивариуса. До этого обходился Яндекс-десктопом. Это то что касается персональной информации. А по корпоративной Кросс и собственная разработка на SQL. К стати, curious, у тебя в конторе достаточно толковых программеров должно быть - давно бы уже нарисовали то что нужно. Ведь любая внешняя разработка будет "немного не так работать", "хоть чуть чуть не подходить."

Ссылка на комментарий
Поделиться на другие сайты

Пардон, так короче:

Быстрый поиск информации и ее консолидация из различных источников позволяют решать многочисленные проблемы, стоящие перед предприятиями, обладающими гигантскими объемами данных. И поисковые технологии, на основе которых создаются корпоративные системы обработки и поиска информации не стоят на месте, развиваясь быстрыми темпами. Прямой поиск уже давно уступил дорогу поиску с предварительной индексацией. Простейшие фразовые запросы тоже остались в прошлом – в чести учет морфологии, синонимов, важных слов и прочих «опциональных атрибутов».

На горизонте маячит «персонализированный поиск» от Google и полная интеграция программ-поисковиков с WWW. Но это больше относится к сфере Интернета. А уже сейчас фразовый поиск дополняется поиском документов похожих по содержанию и смыслу, что дает возможность сократить поисковую сессию до минимума и значительно упрощает сам процесс получения нужного пользователю результата. Для корпоративного сектора важна скорость работы, адекватность и четкое понимание того, какие именно плюсы даст развертываемая на предприятии система и какие проблемы позволит решать новая технология.

 

Быстрый поиск

Фразовый поиск далеко не всегда решает проблему быстрого поиска требуемой информации. Сказываются временные затраты на подбор правильных ключевых слов и на просмотр ненужных документов в результирующем списке. Уменьшить время поиска можно. И одним из вариантов [самым действенным] является использование поиска документов похожих по содержанию. Это позволяет сократить время поисковой сессии до минимума и дает точные, адекватные результаты.

Размытость информационного наполнения

 

В информационной системе предприятия могут находиться документы из различных источников, содержащие похожую или идентичную информацию. Один и тот же текст может быть с разными заголовками, с небольшими изменениями или дополнениями, что вносит определенную путаницу при его использовании. Существующие технологии поиска похожих по содержанию документов решают и эту проблему путем сравнения поступающих в базу предприятия документов с уже содержащимися там данными и выявления дублей.

 

Различные источники информации

Информация на предприятии содержится как на дисках компьютеров, подключенных к локальной сети, так и в базах данных и различных информационных системах. Это создает определенную проблему их поиска – в различных источниках и различными программными средствами. На данный момент технологии поиска позволяют консолидировать информацию из различных источников, что дает возможность структурировать информационные составляющие любого крупного предприятия под управлением одной поисковой системы без нужды переводить документы и данные в какой-либо единый формат.

 

Отчет похожести документов

Достаточно распространенное явление – содержащиеся в информационной базе предприятия дублирующие друг друга документы из различных источников или внесенные разными людьми. Технологии поиска похожих документов позволяют определить дубли при помощи построения анализа похожести. Такая полезная функция дает возможность выделить повторяющиеся документы и удалить их из базы без потери нужной информации.

 

SoftInform Search Technology

Все эти, а также множество других проблем позволяет решать технология поиска SoftInform Search Technology от компании СофтИнформ. Она включает в себя все инструменты, необходимые для структуризации разрозненной информации в рамках предприятия и предоставляет собой эффективное решение любых проблем поиска и консолидации информации.

Основным преимуществом и отличием SoftInform Search Technology от существующих аналогичных технологий и систем поиска является запатентованная компанией СофтИнформ функция поиска документов, похожих по содержанию на текст запроса. Именно эта уникальная возможность технологии СофтИнформ и позволяет наиболее эффективно решать большинство проблем обработки и поиска информации на предприятии.

С помощью SoftInform Search Technology в считанные доли секунды можно найти любой документ, расположенный на жестком диске компьютера, в базе данных или в информационной системе предприятия. Высокая скорость индексирования (до 6 Гб/час), малый размер индекса (15-20% от реального объема текстовой информации), поддержка практически всех распространенных форматов текстовых файлов (включая .pdf и .html) и корректная работа с архивами делают SoftInform Search Technology незаменимым инструментом поиска информации.

Системы на базе SoftInform Search Technology легко интегрируются в информационную структуру предприятия, подключая различные источники данных, и имеют архитектуру клиент-сервер. Внедрение таких систем не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время поисковые системы от СофтИнформ позволяют объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.

Самому предложили попробовать. Честно - руки ещё не дошли.
Ссылка на комментарий
Поделиться на другие сайты

Тоже недавно перешел на архивариуса. До этого обходился Яндекс-десктопом. Это то что касается персональной информации.

А в чем преимущества Архивариуса перед Яндекс Десктопом?

Ссылка на комментарий
Поделиться на другие сайты

А в чем преимущества Архивариуса перед Яндекс Десктопом?

Не знаю причину, но у меня сложилось субъективное впечатление, что Яндекс-десктоп как то не стабильно работает. Выражается это в том, что периодически (не часто) он не находит то, что им уже было проиндексировано. И пару раз за прошедшие полгода он просто слетал - исчезал индексный массив. Возможно это из-за моей криворукости :smile2: Поэтому объективных преимуществ нет. Просто ощущение надежности :smile8:

Ссылка на комментарий
Поделиться на другие сайты

так нужен корпоративная система поиска или персональная? в качестве примера того, что обычно требуют от корпоративной - посмотрите http://www.oracle.com/database/secure-enterprise-search.html (150 форматов и т.д.)

 

 

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...