Парсер текста

  
Медаль
Сообщений: 217
нужен парсер текста
нужно выдернуть из html или просто из текстовых файлов адреса
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
вот такой примерно формат
или
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

нужно выдернуть название фирмы и ее адрес
подскажите какой программой это можно сделать или может скрипт какой то есть
Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов.
Медаль
Сообщений: 675
это пишется под определенный сайт с которого парсить нужно!
Медаль
Сообщений: 217
Я думаю что есть такие проги
это программы типа поиска и замены текста но с расширенными функциями
Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов.
МедальКубок зрительских симпатий
Сообщений: 205
Если Вам нужен "качественный" парсинг-то только под заказ и под определенный сайт!
Уважайте мнение каждого...
Сообщений: 79
pivua),
это пишется под определенный сайт с которого парсить нужно!
Вы немного не правы, (парсер есть и парсит откуда укажешь)
МедальПочетный донор проектаАвторитет форумаКубок зрительских симпатий
Сообщений: 2384
skaz, и как это чудо называется и где смотреть ?
Титаник строили профессионалы, Ноев ковчег – дилетант. http://blagonravie.ru
Медаль
Сообщений: 287
skaz, у сайтов может быть разная структура, я сомневаюсь что есть какой-то универсальный парсер
Мой первый проект на ICMS - http://sasovo.net
Медаль
Сообщений: 217
skaz - НАДО!
в первом посте же написано - надо
и не важно - из html или из текстового файла.
если знаете подскажите, а то получается так:
- что я знаю, что я знаю но вам не скажу smile
Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов.
Медаль
Сообщений: 675
skaz:
Вы немного не правы, (парсер есть и парсит откуда укажешь)
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)
Медаль
Сообщений: 217
pivua):

skaz:
Вы немного не правы, (парсер есть и парсит откуда укажешь)
тс нужно парсить или это:
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
или такое:
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14

Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!)
Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт...
иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени)

а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7
намного проще
тоесть просто прогу которая выдергивала бы строки
я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile
не могу вспомнить какая
Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов.
Сообщений: 79
eoleg
В общем я дал ссылку в личку, поставите и дадите ответ, как и что.
Rossoman,
Я его толком не тестировал, но с новостного сайта для пробы попробовал скачать, получилось,
Насчет разной структуры сайтов, тут дело не только может быть в этом, например у некоторых сайтов, сделана специальная защита, от граберов.
а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7 намного проще тоесть просто прогу которая выдергивала бы строки я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть smile не могу вспомнить какая

У этой, указываешь сайт, url, если надо добавляешь ключевики, и еще там есть кой какие настройки, и он снимает все тексты с сайта.
Редактировалось: 1 раз (Последний: 4 февраля 2012 в 19:37)
Медаль
Сообщений: 296
Нету таких парсеров. И быть не может. Должна быть какая то структуру откуда дергать скажем если они все находятся <div id="contact">*</div> все что в диве можно выбрать. А если информация хаотична и не пойми какая то выдрать ничего не получится. можно конечно написать умный парсер которй будет как то выдирать контакты, но во первых будет куча мусора, во вторых выдрать может половину.. даже если брать за точку старта +7|8|495| и ОАО|ЗАО|ЧП| и т.п. то не будет точки конца.. на чем все это дело обрубается. можно оборвать по первому тегу. но на деле он может или чтото перебрать или что-то не добрать.
RussianPromo

CityTula.ru - новый медленно развивающийся проект.. НО когда нибудь я за него очень капитально возьмусь.
В начало страницы 
|
Перейти на форум:
Быстрый ответ
Чтобы писать на форуме, зарегистрируйтесь или авторизуйтесь.