Перейти к содержанию

Аваланч - программа для мониторинга Интернета


Рекомендуемые сообщения

И еще вопросец.

 

В прошлой версии (1.0) была функция "Обрабатывать ссылки вида ...". В этой версии ее нет. Почему? Мне кажется, это позволит не закачивать с сайта мусор, не попадающий под выбранную маску. Например, в моем случае задаю маску обработки ссылок "http://www.b-port.com/info/smi/vm/?issue=" - и получаю только страницы с нужными публикациями, а все остальное пролетает, даже если в нем присутствуют ключевые слова. Если мне нужны только упоминания в определенных местах, я их получаю. Пока же проще и надежнее найти упоминания по Интегруму, а потом взять конкретику с этого сайта. Все вручную, естественно.

Ссылка на комментарий
Поделиться на другие сайты

  • Ответов 389
  • Создана
  • Последний ответ

Вернем обязательно.

Вот задокументируем все, что уже работаем - и вернем шаблон обработки ссылок :smile18:

 

И еще вопросец.

 

В прошлой версии (1.0) была функция "Обрабатывать ссылки вида ...". В этой версии ее нет. Почему? Мне кажется, это позволит не закачивать с сайта мусор, не попадающий под выбранную маску. Например, в моем случае задаю маску обработки ссылок "http://www.b-port.com/info/smi/vm/?issue=" - и получаю только страницы с нужными публикациями, а все остальное пролетает, даже если в нем присутствуют ключевые слова. Если мне нужны только упоминания в определенных местах, я их получаю. Пока же проще и надежнее найти упоминания по Интегруму, а потом взять конкретику с этого сайта. Все вручную, естественно.

 

Ссылка на комментарий
Поделиться на другие сайты

Сорри, не оповестил. :smile2:

 

Глюк поправили еще в четверг вечером и релиз выложили на том же месте.

 

По второму вопросу: как раз с b-port сейчас возимся.

 

Там надо придумать, как именно попроще задавать (или автоматически отлавливать), что идти надо на конкретную страницу с новостями, порожденную сегодня с таким-то шаблоном ссылки.

 

Либо, как вы предлагаете, вернуть настройку "Обрабатывать только ссылки вида.."

 

Ну так как? Избавили релиз от глюка? Понедельник на дворе.

 

И повторный вопрос: возможно ли настроить работу Эвеланша с открытыми архивами публикаций? Хотелось бы увидеть рабочий пример настройки (на примере www.b-port.com - результат его обработки можно проконтролировать и сравнить результаты).

 

Ссылка на комментарий
Поделиться на другие сайты

Сорри, не оповестил. :smile2:

 

Глюк поправили еще в четверг вечером и релиз выложили на том же месте.

 

По второму вопросу: как раз с b-port сейчас возимся.

 

Там надо придумать, как именно попроще задавать (или автоматически отлавливать), что идти надо на конкретную страницу с новостями, порожденную сегодня с таким-то шаблоном ссылки.

 

Либо, как вы предлагаете, вернуть настройку "Обрабатывать только ссылки вида.."

 

Так а почему или/или? Нужно и то и другое :smile3:

 

А вообще я бы предложил использовать два варианта

1) в качестве параметра стартовой страницы динамически генерируемую на основе макросов (дата в том или ином формате и т.д.) сигнатуру, которая ищется в содержимом внутри текста в <a href>... </a>. Соответственно со стартовой страницы идет обход только по ссылкам, для которых в "якорном тексте " есть эта сигнатура

2) более универсальный подход - скрипт на каком-нибудь простеньком языке (все не параметризуешь :smile17: ), который на выходе дает набор ссылок, по которым надо идти со стартовой страницы. Например, в той же malzilla, о которой писал уважаемый Loo, именно такой подход и применяется (скрипты на простеньком Pascal-евском интерпретаторе) - это очень удобно.

 

 

Ссылка на комментарий
Поделиться на другие сайты

Заархивировано

Эта тема находится в архиве и закрыта для дальнейших ответов.


×
×
  • Создать...