нужен парсер текста
нужно выдернуть из html или просто из текстовых файлов адреса
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
вот такой примерно формат
или
ООО "Рога и копыта"
какой то текст
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14
нужно выдернуть название фирмы и ее адрес
подскажите какой программой это можно сделать или может скрипт какой то есть
Парсер текста
Сообщений: 217 |
Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов. | ||||||
Сообщений: 675 |
это пишется под определенный сайт с которого парсить нужно! | ||||||
Сообщений: 217 |
Я думаю что есть такие проги это программы типа поиска и замены текста но с расширенными функциями Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов. | ||||||
Сообщений: 205 |
Если Вам нужен "качественный" парсинг-то только под заказ и под определенный сайт! Уважайте мнение каждого... | ||||||
Сообщений: 79 |
pivua),
| ||||||
Сообщений: 2384 |
skaz, и как это чудо называется и где смотреть ? Титаник строили профессионалы, Ноев ковчег – дилетант. http://blagonravie.ru | ||||||
Сообщений: 287 |
skaz, у сайтов может быть разная структура, я сомневаюсь что есть какой-то универсальный парсер Мой первый проект на ICMS - http://sasovo.net | ||||||
Сообщений: 217 |
skaz - НАДО! в первом посте же написано - надо и не важно - из html или из текстового файла. если знаете подскажите, а то получается так: - что я знаю, что я знаю но вам не скажу Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов. | ||||||
Сообщений: 675 |
+7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14 или такое: ООО "Рога и копыта" какой то текст +7 (888) 218-03-32, г. Новгород, ул. Ватутина, д. 11, оф. 14 Сомневаюсь что во всех сайтах одинаковая разметка) тут и для этих примеров она разная будет!) Поэтому как сказал Nikitka, если нужен качественный! то только под определенный сайт... иначе к вашему универсальному нужен еще будет универсальный обработчик к спарсенному куча свободного времени) | ||||||
Сообщений: 217 |
а если выдергивать строки начинающиеся с ООО ОАО ЗАО НПП и +7 намного проще тоесть просто прогу которая выдергивала бы строки я даже пользовался такой примерно год назад но помню только что она называлась на r replace тоесть не могу вспомнить какая Работай на себя! - Работа для программистов, дизайнеров, менеджеров, копирайтеров, оптимизаторов. | ||||||
Сообщений: 79 |
eoleg В общем я дал ссылку в личку, поставите и дадите ответ, как и что. Rossoman, Я его толком не тестировал, но с новостного сайта для пробы попробовал скачать, получилось, Насчет разной структуры сайтов, тут дело не только может быть в этом, например у некоторых сайтов, сделана специальная защита, от граберов.
У этой, указываешь сайт, url, если надо добавляешь ключевики, и еще там есть кой какие настройки, и он снимает все тексты с сайта. Редактировалось: 1 раз (Последний: 4 февраля 2012 в 19:37) | ||||||
Сообщений: 296 |
Нету таких парсеров. И быть не может. Должна быть какая то структуру откуда дергать скажем если они все находятся <div id="contact">*</div> все что в диве можно выбрать. А если информация хаотична и не пойми какая то выдрать ничего не получится. можно конечно написать умный парсер которй будет как то выдирать контакты, но во первых будет куча мусора, во вторых выдрать может половину.. даже если брать за точку старта +7|8|495| и ОАО|ЗАО|ЧП| и т.п. то не будет точки конца.. на чем все это дело обрубается. можно оборвать по первому тегу. но на деле он может или чтото перебрать или что-то не добрать. RussianPromo CityTula.ru - новый медленно развивающийся проект.. НО когда нибудь я за него очень капитально возьмусь. |
| В начало страницы |
Быстрый ответ
Чтобы писать на форуме, зарегистрируйтесь или авторизуйтесь.
