Парсер контента для ICMS 2

+36
5.5K
Иллюстрация
Парсер контента — это полноценный компонент для ручной и автоматической публикации на сайте контента, полученного с различных источников.

Компонент «Парсер контента» предназначен для получения контента с любого рода интернет-ресурсов, его обработки и публикации на сайте. В отличии от RSS-парсеров вы не ограничены списками RSS-лент, а можете получать контент с любых ресурсов. Например, вы хотите на своем сайте публиковать новости из новостной ленты другого сайта или публиковать статьи из определенной колонки какого-то сайта. Вы создаете задание, указываете все необходимые параметры и парсер делает это вместо вас. Причем парсинг может работать в двух режимах — ручном и автоматическом(если у вас настроен CRON).

На практике это выглядит так — вы можете самостоятельно запускать созданное вами задание из панели управления, или доверить его запуск cron-у, указав интервал времени, через которое данное задание необходимо выполнить. Результатом работы будет получение указанного вами в задании числа публикаций. Причем эти публикации могут быть опубликованы на сайте или отложены на модерацию и решение о публикации каждого конкретного материала вы можете принять самостоятельно.


Перед публикацией материала на сайте в ручном режиме вы можете просматривать и редактировать полученный контент, менять категорию для публикации и выполнять ряд стандартных действий. Этим пожалуй никого не удивишь. Однако есть ряд функций, которые парсер сделает за вас в автоматическом режиме. Вот некотрые из основных возможностей автоматической обработки текста:

Автоматическое создание превью

Парсер автоматически загрузит обложку статьи и создаст нужные превью изображений к статье. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.

Загрузка изображений из тела статьи

Если контент сайта-источника предполагает наличие картинок в теле статьи, вы можете приказать парсеру загружать картинки на ваш сервер. Для загрузки изображений используются стандартные средства системы, автоматически создаются указанные вами пресеты(micro, small, normal, big и т.д.). Таким образом вы можете выбрать только нужные вам пресеты изображений. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.

Замена тегов

Автоматическая замена тегов в тексте статьи. Заменяйте теги на нужные вам, применение этой опции весьма обширно. Предположим, что структура контента на вашем сайте построена с использование тегов <p>...</p>, а контент, размещенный на сайте-источнике имеет верстку, основанную на тегах <div>...</div>. Парсер может автоматически заменять теги div на тег p, тем самым адаптируя контент источника под ваш сайт. Также вы можете заменять любые другие теги.

Замена аттрибутов

В ходе парсинга вам хотелось бы изменить внешний вид элементов или добавить интерактивности? Нет ничего проще — просто укажите, какие аттрибуты вы бы хотели добавить/заменить и это будет сделано автоматически в ходе получения статьи. Данная опция позволяет менять классы, ID, стили элементов на нужные вам. Например заменить курсив жирным текстом или добавить к картинкам на странице аттрибуты для Lightbox.

Удаление мусора

Если в тексте получаемой статьи присутствуют инородные вкрапления — рекламные вставки, теги разметки или ненужный вам текст вы можете указать это в настройках парсера и он удалит эти элементы сделав текст статьи чистым.

Результат

Результат работы компонента «Парсер контента» вы можете посмотреть на сайте ic-press.ru. Сайт наполняется контентом полностью в автоматическом режиме. За неполный месяц тестирования компонентом было опубликовано на сайте более 12000 публикаций.

Вы можете ознакомиться с подробным руководством пользователя. В нем вы найдете подробную информацию о технических требованиях компонента, способе покупки, принципах настройки и использования компонента.

+1
SE7EN SE7EN 7 лет назад #
Немного не понял, поэтому спрошу. Есть ли возможность с одного сайта донора парсить новости в разные категории своего сайта?
+3
dwd dwd 7 лет назад #
Да, такая возможность есть.
+4
SE7EN SE7EN 7 лет назад #
Посмотрел видео - и сразу маленькое предложение: Чтоб сайт донор не хныках за то что у него тырят новости может стоит сделать функцию типа указание источника, ну чтоб парсер автоматически в конце статьи или ещё куда вставлял что-то типа "Источник"
+5
dwd dwd 7 лет назад #
Существует полноценная вкладка "Ссылка на источник". Три типа ссылок: ссылка на страницу с исходной статьей, ссылка с указанными вами анкором и URL, упоминание источника без ссылки. Добавление ссылок возможно как в виде отдельного поля так и прямо в текст статьи. Прямые ссылки или ссылки через редирект.
+3
vikont vikont 7 лет назад #
Галереи умеет парсить в поля галерей со слайдером?
+3
dwd dwd 7 лет назад #
Помнится мне вы уже задавали этот вопрос. С тех пор ничего не изменилось.
+1
Василич Василич 7 лет назад #
Отличная разработка, но она мне интересна только с точки зрения парсинга из социалок, где, 90% групп закрытые. Можете ли вы помочь с логином в социалки и парсинга из закрытых групп? За отдельный бюджет, конечно же. Можно в личку.
Спасибо.
+1
kirkr kirkr 7 лет назад #
Я думаю что за отдельную плату разработчик сможет Вам реализовать curl авторизацию под пользователем и забор из социалок.
+1
Melon Melon 7 лет назад #
Есть вопрос по очистке от мусора. Если в тексте какая-то фраза сделана в виде ссылки, то можно ли парсить сам текст без ссылки, или же можно только указать в качестве мусора ссылку и текст тоже не спарсится?
+3
dwd dwd 7 лет назад #
Ответ на ваш вопрос - 20:50 на видео
+1
Melon Melon 7 лет назад #
спасибо
+2
Bubble Gumoff Bubble Gumoff 7 лет назад #
+Помоему отличный парсер, не знаю как там у предшественников, оценить не удалось, но здесь почти все что нужно, ну кроме заморочек считая обход логина, подмена ip, и т.д.
+4
dwd dwd 7 лет назад #
Получение страниц с сайтов источников в парсере производится при помощи библиотеки cURL, которая позволяет вам указывать множество параметров подключения, в том числе и произвести авторизацию на сайте перед загрузкой страницы. Вы сами можете определять настройки cURL для любого сайта, страницы, маски страниц. Вот вам несколько статей про авторизацию на сайтах при помощи cURL - статья 1, статья 2. Поскольку для каждого сайта настройки cURL будут разными то получить данный функционал "из коробки" не представляется возможным, но у вас есть все необходимое для реализации вашей задачи.
+1
Bubble Gumoff Bubble Gumoff 7 лет назад #
значит и этот вопрос решен - отлично!
+1
evgen evgen 7 лет назад #
А новогодние скидки ждать ? И вопрос надо пару парсеров, сначала один потом ещё один через некоторое время, на второй на скидку можно рассчитывать. С Уважением!
+5
dwd dwd 7 лет назад #
Зачем ждать? Можно просто написать и получить новогоднюю скидку. Вы не первый, кто задает мне этот вопрос и все, кто хотел получить новогоднюю скидку, ее уже получили. После приобретения одной копии компонента, все остальные вы также сможете получить со значительной скидкой. И, думаю это будет касаться не только данного компонента, но и тех, которые появятся в будущем.
+2
&$!#% &$!#% 7 лет назад #
Пара вопросов.

1. Можно ли доработать компонент таким образом, чтобы была интеграция с InstantMaps? Есть источник, где кроме картинок и текстов есть адрес, телефон, почта, адрес сайта. Нужно при парсинге заполнить эти поля, а также найти координаты по адресу.

2. Есть ли (или может в планах) автоперевод на другой язык при парсинге? Также интересует двойной перевод)) Понимаю, звучит странно... В общем, суть такая. Парсим англоязычный сайт, сразу переводим его на русский, потом назад на английский и только после этого публикуем на сайте.

И самое главное. Интересуют эти две опции вместе. Т.е., нужно парсить англоязычный сайт, переводить его на русский, назад на английский и сохранять в мапс с поиском координат, установкой маркера в нужное место и заполнением контактной информации.

Спасибо.
+5
dwd dwd 7 лет назад #
1. InstantMaps никак не связан с типами контента. Если ошибаюсь поправьте. У компонента InstantMaps свои таблицы в БД со своей структурой. Поэтому "допиливание" компонентa до того состояния, о котором вы говорите приведет к наличию кучи никому, кроме владельцев InstantMaps, полей и прочего хлама. Гораздо логичнее парсить всю вашу страницу целиком, а для выдергивания таких полей как почта, адрес, телефон написать обработчик, который непосредственно перед постингом будет делать всю эту работу. В общем и целом задача реализуема. Но делать это стоит только при отсутствии более подходящих программных решений, поскольку это напоминает копание ямы веслом. Форма вроде та же, но продуктивность разная.

2. Автоперевод реализуем путем интеграции с любым компонентом, имеющим функции перевода, например тем же компонентом " Языки". Несколько строк кода решают поставленную вами задачу.

И самое главное. Нельзя интегрировать вилку с чайником, а пылесос с бульдозером. Вещи надо использовать по их прямому назначению. Стремление автоматизировать процесс это замечательно, но всему есть разумный предел. Вы же хотите чтобы парсер был легким в настройке и имел миллион полей, не грузил сервер и переводчиком на пол ставки подрабатывал, а вдобавок оставался универсальным решением для парсинга любых источников. Тут надо, как в анекдоте, определиться - парсер либо умный, либо красивый.)
+4
&$!#% &$!#% 7 лет назад #
InstantMaps никак не связан с типами контента.
Прямо связан. Это и есть тип контента со всеми стандартными полями. И еще несколько дополнительных полей добавлено.

при отсутствии более подходящих программных решений
Так вот в том-то и дело, что нет ничего подходящего)) Куча парсеров, и ни один не умеет делать это.

Несколько строк кода решают поставленную вами задачу
Хорошо, что Вы разбираетесь)) И даже знаете, скорее всего, каких строк, и даже их содержание)) Я не знаю. Потому такие вопросы глупые задаю.

Вы же хотите чтобы парсер... оставался универсальным решением для парсинга любых источников.
Нет, меня не интересует парсер любых источников. В данный момент меня интересует парсер, который будет выполнять поставленные задачи. Если Вы иногда читаете комментарии в блогах, то увидели бы, что подобный вопрос я задавал другому разработчику тоже универсального парсера. Но универсальность - это что по-Вашему? Я готов купить парсер, выполняющий задачи в соответствии с моими потребностями. Я задал вопрос, можно ли так сделать. Если можно - назовите цену. Если нет - значит нет. Не стоит мне рассказывать про пылесос и вилку. Это ни к чему.

Спасибо.
+4
dwd dwd 7 лет назад #
Ну пылесос и вилка это всего лишь примеры. Для наглядности, так сказать. Не более. Судя по тому, что в ваших постах не было даже намека на какой-либо конкретный сайт я понимаю, что сайт будет не один - это и есть универсальность. Если же вас интересует конкретный источник то давайте подробности, можно в личку. Получить данный функционал из коробки можно только в одном случае - если компонент будет называться "Парсер для InstantMaps".
+2
&$!#% &$!#% 7 лет назад #
ОК, напишу в личку.
+2
ermakover ermakover 7 лет назад #
Да вот такой "Парсер для InstantMaps" многие давно ждут. И я первый бы его купил.
+1
Romanovcmc Romanovcmc 7 лет назад #
Не смотрел видео. Вопрос, есть ли возможность в тексте статьи менять слова на синонемы? Т.е. забиваешь множество замен, и он согласно им текст меняет, типа рерайта небольшого.
+7
dwd dwd 7 лет назад #
Да, можно менять все - текст, теги, стили, классы и другие аттрибуты. Принцип прост:

хочу это=>заменить этим||хочу это=>заменить тем||троллейбус=>общественный транспорт||метро=>подземка
+1
Romanovcmc Romanovcmc 7 лет назад #
круто
+2
lezginka.ru lezginka.ru 7 лет назад #
+ интересная работа
вопрос - есть ли возможность до пупки по-пробовать ?
+4
dwd dwd 7 лет назад #
Конечно. Пишете мне письмо(почта есть в профиле), в ответном письме получаете данные для теста.
+1
PolarOne PolarOne 7 лет назад #
Отличный парсер! Пользовался подобным самописным, по сути тоже самое, но не столь удобно и крассиво реализовано как здесь. Да еще ссылки внутри контента тоже грабило. Буду пробовать реанимировать свой сайт с этим модулем.
+5
Владимир86 Владимир86 7 лет назад #
Компонент мощный + поддержка по всем вопросам на высоте v
Спасибо Вам Александр joke
0
Андрей Андрей 7 лет назад #
Доброго времени суток!
Умеет ли этот парсер парсить телефоны с AVITO?
+2
dwd dwd 7 лет назад #
Не знаю, не пробовал, но если не ошибаюсь там телефоны в виден картинок. В виде картинки парсер телефон забрать точно сможет, про текстовый вариант телефона говорить не буду.
0
Pocus Pocus 7 лет назад #
Мало того, что там картинки, так еще в некоторых разделах доступ к номеру платный. Например в резюме.
Но есть обходной манёвр, через мобильную версию авито. Там номер телефона идет текстом.
Правда для этого ваш парсер должен уметь "кликать" по ссылкам, либо формировать ajax get запросы с дополнительными параметрами и разбирать json массивы.
0
a1xzhu a1xzhu 6 лет назад #
Скажите а данный парсер может с досок объявлений объявления парсить
+2
dwd dwd 6 лет назад #
Парсер это машина, он не отличает доски объявлений от любых других сайтов и работает с любым HTML(и не HTML) кодом. Будь то доска объявлений или форум. Как и все роботы не способен получать данные, выводимые при помощи ajax/javascript(этого не умеют даже роботы поисковых систем), все остальное ему под силу. Одним словом, если нужный вам контент содержится в исходном HTML-коде страницы он может быть вами получен, если выводится прямо в браузер при помощи ajax/javascript - нет.
0
Janob Janob 6 лет назад #
Всем советую очень полезный и довольна мощный компонент/ За час можно наполнит вес сайт круто спс dwd
0
KoXa KoXa 6 лет назад #
Подскажите, может ли этот парсер по определенным словам отбирать новости и добавлять в ту или иную новостную категорию?
+2
dwd dwd 6 лет назад #
Мне кажется в наше время любой сайт умеет по определенным словам отбирать новости, поэтому не вижу смысла делать то же самое в парсере. Ну а ип контента и категории на своем сайте конечно же выбираете вы сами.
0
KoXa KoXa 6 лет назад #
Вы являетесь разработчиком данного палагина?
0
KoXa KoXa 6 лет назад #
Уважаемый разработчик! Я не просто так спрашиваю, значит для меня данная функция является приоритетной, зачем тратить мое и свое время отвечая загадками? Хотелось бы получить ответ, есть такая функция или ее нет, если ее нет буду рассматривать другие варианты для реализации своих потребностей.
+2
dwd dwd 6 лет назад #
Рассматривайте. Данной опции в компоненте не было, нет и не будет.
0
~ Grey ~ ~ Grey ~ 6 лет назад #
Здравствуйте. А сколько стоит заказ 1 ленты за настройку.
+4
dwd dwd 6 лет назад #
Здравствуйте! Настройка это опыт. А опыт не продается.)) А если честно у меня и в мыслях не было заниматься подобным. Процесс настройки прост и требует лишь базовых знаний HTML. Как сказал один из покупателей компонента , думаю к этому мне и добавить нечего.
0
TOPg TOPg 5 лет назад #
Здравствуйте, а на вкладке категории, если я создам дополнительные поля их тоже можно будет там выбирать? или как поступать?
+2
dwd dwd 5 лет назад #
Здравствуйте! Да, все созданные вами в типе контента поля доступны для выбора во вкладке Категория. А если вы имеете в виду дополнительные поля парсера, которые можно создавать в любом количестве установив пакет расширения, то они привязываются к полям вашего типа контента точно таким же образом.
0
Голдман Сакс Голдман Сакс 3 года назад #
C Utf-8 всё отлично, а вот с сайтами windows-1251 просто беда. Ни один не могу спарсить.
Проблема начинается еще на стадии Тестера стратегий, который вместо кириллицы выдаёт "ромбики".
В чем там может быть проблема?
Про поле "кодировка сайта" знаю, но проблема выходит еще на стадии тестера.
+2
dwd dwd 3 года назад #
С любыми кодировками все отлично, проверено сотнями сайтов и временем)) Единственное что от вас требуется(если кодировка отличается от utf-8) это правильно вписать ее в поле "Кодировка сайта" о котором вы знаете. Если у вас имеются примеры сайтов, которые неверно обрабатываются вы всегда можете прислать мне пресеты проблемных заданий. За 5 лет поддержки компонента я видел много источников, но проблем с кодировками не наблюдал ни разу. Поэтому я и сейчас убежден, что причина в чем-то другом.
Проблема начинается еще на стадии Тестера стратегий, который вместо кириллицы выдаёт "ромбики"
Верно. Именно так и должно быть. Тестер показывает вам чистую необработанную информацию, которая будет получена с сайта-источника. Конвертация при выполнении заданий из указанной вами в данном поле кодировки в utf-8 производится всегда при условии, что данное поле заполнено. В тестере стратегий эта процедура опущена сознательно для возможности более точных манипуляций(спец- и непечатные символы и т.д.)
0
Голдман Сакс Голдман Сакс 3 года назад #
Обновил версию парсера до последней и установил дополнение и всё заработало. Может и не в этом было дело, но результат успешный.
Очень порадовало появление поля tags. Его очень не хватало. Спасибо за него.
Ещё бы заработали шаблоны генерации мета-описаний и ключевых слов из "SEO для записей" типов контента было бы вообще великолепно.
+1
dwd dwd 3 года назад #
Вообще-то они работают. И парсер их никак не трогает. Генерация SEO для записей происходит динамически в момент генерации страницы и ее показа пользователю, а не во время добавления записи.
0
Голдман Сакс Голдман Сакс 3 года назад #
Как я понял, могу и ошибаться, а в документации к движку данный момент не описан, но дело обстоит так: если мета-описания и ключевые слова не заполнены при создании новости, то происходит генерация SEO для записей. Если же их заполнили вручную, то они приоритетнее, и генерация не происходит. Т.к. парсер их заполняет сам автоматом, то генерации SEO для записей не происходит.
Тут надо, возможно, как опцию отменить автозаполнение этих полей парсером.
+2
dwd dwd 3 года назад #
Да, вы абсолютно правы, все происходит именно так. И компонент это учитывает.
Просто снимите галочки в настройках типа контента:

- Автоматическая генерация ключевых слов
- Автоматическая генерация META-описаний

Тогда парсер не будет генерировать seo и записывать в БД.
А вот при выводе записи ключи и описания динамически генерироваться будут по вашему шаблону.
0
Голдман Сакс Голдман Сакс 3 года назад #
Ура! Заработало!
0
Голдман Сакс Голдман Сакс 3 года назад #
А как боритесь с тегом PRE, внутри которого как раз и находится нужный текст?
Ведь внутри него нет BR и P, и, соответственно, текст сваливается в парсер без переносов.
Мне уже второй такой сайт попадается...
+2
dwd dwd 3 года назад #
Никак не борюсь))
Зачем бороться с тем чего нет? Зачем придумывать то, что уже есть?))
Перевожу на русский - если мы добавляем тег pre в список разрешенных тегов в настройках компонента, то собственно он и не вырезается в результате очистки. И никаких "текст сваливается в парсер без переносов" не возникает. Ну а если не хотим видеть данный тег, то убираем его в настройках и никогда его не встречаем больше. Все это и многое другое детально расписано в .
P.S. В моем профиле есть почтовый адрес. Комментарии - неподходящий для получения консультаций формат))
0
Алексей Т Алексей Т 3 года назад #
Результат работы компонента «Парсер контента» вы можете посмотреть на сайте ic-press.ru. Но сайт не работает.
Или убрать или подправить ссылку. Спасибо.

Еще от автора

Компонент «Продажа полей» для ICMS 2
Компонент для тотального управления продажей полей. Возможна оплата показа пользователями и самим автором. Масса типов продажи полей.
Компонент «Мотивация пользователей» для ICMS 2
Компонент предназначен для поощрения пользователей за систематическое посещение сайта.
Поле «Поддерживаю!» для ICMS 2
Поле «Поддерживаю!» предназначено для сбора голосов в решении какой-то задачи.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.