Приложение № 1 к Соглашению об информационном сотрудничестве, опубликованному 27.04.2004г. (http://partner.news.yandex.ru/agreement.pdf) с изменениями от 15.06.2006г. г.Москва дата публикации 27.04.2004г. дата последнего изменения 31.08.2009г. ТЕХНИЧЕСКИЕ ТРЕБОВАНИЯ Экспорт Данных для размещения заголовков и аннотаций новостей на Яндекс.ру (в том числе на сайте Яндекс.Новости) осуществляется в XML-based (http://www.w3.org/TR/REC-xml) формате RSS 2.0 (http://blogs.law.harvard.edu/tech/rss). Ниже содержится описание используемых для экспорта Данных элементов RSS 2.0, необходимые комментарии и пример экспортного файла. 1. Описание элементов RSS 2.0, используемых для экспорта Данных Корневым элементом RSS-файла является , атрибут version которого должен иметь значение 2.0: Внутри элемента содержится элемент , который включает информацию об источнике и его содержание. Обязательными элементами считаются следующие элементы: - название RSS-потока. В случае, если экспортируется содержание целого сайта, то в здесь должно быть его название, например: <title>Российские новости; если же часть сайта, то в названии должно быть отражено, какая именно часть, например: Российские новости: технологии. На Яндекс.ру название RSS-потока не показывается, экспортируемые Данные маркируются тем названием источника, которое было указано в анкете. - URL сайта, данные которого транслируются в потоке. Пример: http://www.rossiyskie-novosti.ru - описание потока. Одно предложение. Пример: Ежедневная иллюстрированная московская общественно-политическая газета. В Яндекс.Новостях также используется входящий в обязательный элемент , который должен содержать ссылку на графический файл с изображением логотипа издания. Эта ссылка дается во вложенном элементе , название (будет написано в html-атрибуте alt) - в (необходимо еще раз повторить название издания), URL издания - в <link>. Логотип должен быть в формате .gif, без анимации. Размер логотипа – 100 пикселей по максимальной стороне. В <channel> может содержаться любое количество элементов <item>. Каждый <item> описывает одно сообщение и должен содержать следующие элементы, необходимые для экспорта Данных <title> - заголовок сообщения. Написание заголовка целиком ПРОПИСНЫМИ буквами не допускается. Не допускается также наличие точки в конце заголовка. В заголовке не должны содержаться название источника и дата/время сообщения, а также служебные примечания («(обновлено)», «(дополнено)», «(фоторепортаж)», «(видео)» и др.) и неинформативные обороты, не представляющие собой неотъемлемой части заголовка («Срочно!», «Сенсация:» и тп.). Пример: <title>Яндекс ищет на президентском сайте - URL сообщения, считается уникальным идентификатором сообщения. Внимание: каждое сообщение должно располагаться на отдельной странице, открывающейся по указанному адресу, при этом заголовок и начало текста сообщения должны быть доступны в первом экране при разрешении 1024х768. При переходе с заголовка, размещенного на Яндекс.Новостях, должна открываться только одна страница, содержащая сообщение, соответствующее заголовку. Наличие по URL, указанному в более одной новости (ленты новостей) не допускается. URL, различающиеся только в части после '#' (только якорями), т.е. вида: http://www.some-host.ru/news.html#2545 и http://www.some-host.ru/news.html#5794 считаются идентичными и НЕ допускаются. Пример: http://www.rossiyskie-novosti.ru/2003/03/25/yandex.html - ссылка на pda/palm/wap/кпк-версию сообщения. - аннотация сообщения. Необязательный элемент. Пример: Программный продукт Яndex.Site установлен на официальном сайте президента России - жанр сообщения. Необязательный элемент. Здесь нужно указать латиницей жанр сообщения: lenta (короткое новостное сообщение, 50-80 символов), message (более развёрнутое новостное сообщение), article (статья), interview (интервью). Пример: article - автор сообщения. Необязательный элемент. Пример: Иван Петров (e-mail автора, описанный в спецификации RSS 2.0, в Яндекс.Новостях не используется). - рубрика (раздел, категория) сообщения. Внимание: этот элемент не является обязательным, но в том случае, если в издании есть рубрики, здесь должно быть помещено название рубрики (оригинальное, как в издании), в которой опубликовано сообщение. Одному сообщению может соответствовать только одна рубрика. Об изменении рубрикации издания или добавлении в экспортный файл материалов новых рубрик необходимо сообщать по адресу info@news.yandex.ru. Без такого уведомления сообщения, принадлежащие ранее не существовавшим или переименованным рубрикам издания, не индексируются. Пример: Технологии - элемент для иллюстраций, аудио и видеофайлов. Не является обязательным. В случае, если в сообщении содержится несколько иллюстраций, или иллюстрация и видеофайл, элемент повторяется. Принимаются иллюстрации с шириной не менее 100 и не более 600 пикселов. Если есть несколько вариантов одной иллюстрации, отличающихся размером, то в должен быть указан URL фото наибольшего размера. Иллюстрации должны быть разрешены к индексированию в файле robots.txt. Дополнительную информацию о robots.txt можно посмотреть здесь: http://www.yandex.ru/info/webmaster2.html#robots Пример: Для изображений параметр type должен совпадать с тем, что отдаётся по указанному URL. - Время публикации сообщения на Сайте источника Данных (сайте издания) в формате RFC-822 (см. http://asg.web.cmu.edu/rfc/rfc822.html#sec-5). Регистр в названии имеет значение - буква D должна быть прописной. Пример: Tue, 12 Aug 2003 14:15:00 +0400 Эта запись означает, что новость датирована 12 августа 2003, 14.15 московского летнего времени. Внимание: +0400 не означает никаких арифметических действий над временем и является просто указанием на часовой пояс (в приведенном примере это московское время). Смещение (+0400) указывается относительно GMT, которое НЕ переводится на час зимой/летом. Таким образом, с переводом московского времени на час назад, разница станет не 4, а 3 часа: Wed, 29 Jan 2002 19:59:01 +0300 Указанное в экспортном файле время обязательно должно совпадать с фактическим временем публикации на сайте. Если на странице источника для сообщения указаны ссылки на другие, в том числе неновостные, источники (сайты по теме), необходимо добавить в этого сообщения ссылки на них. Для этого формируется специальный блок . Число элементов внутри этого блока может быть любым. Пример: Президент России 2. Специальный элемент для экспорта полного текста сообщений Кроме стандартных элементов RSS 2.0, для экспорта Данных используется специальный элемент , который должен содержать полный текст сообщения. Этот элемент является обязательным. Полный текст сообщения необходим для индексирования поисковым роботом и на Яндекс.ру не размещается. В полном тексте не должны содержаться название источника и дата/время сообщения, а также контактная информация и любая другая информация, которая повторяется в каждом сообщении. Пример: Для поиска по сайту www.kremlin.ru выбрана программа Яndex.Site. Этот программный продукт был исследован провайдером президентского сайта - Федеральным агентством правительственной связи и информации. ФАПСИ сочло возможным использование поисковой системы <Яндекса> на www.kremlin.ru. По результатам исследования программа была скомпилирована, протестирована и установлена на сайт. <Мы надеемся, - говорит руководитель пресс-службы Президента России Наталья Тимакова, - что хороший поиск поможет людям лучше ориентироваться на президентском сайте и получать исчерпывающую информацию>. Яndex.Site является частью пакета программных продуктов, предназначенного для поиска информации по одному или нескольким веб-сайтам, локального поиска или поиска в корпоративных сетях и базах данных. Он основан на тех же технологиях, что используются в поиске www.yandex.ru, и учитывает морфологию русского и многих других языков. Помимо Яndex.Site, компания <Яндекс> поставляет Яndex.CD - для поиска в коллекциях документов, издаваемых на CD ROM, и Яndex.Lib, предоставляющий низкоуровневые средства для встраивания поиска в любые другие программы. 3. Символы и кодировки По умолчанию (если это не указано явно в заголовке) кодировкой файла считается utf-8. В противном случае выставление кодировки xml файла обязательно. Наиболее часто употребляемые кодировки: windows-1251, utf-8, koi8-r Внимание: фактическая кодировка, отдаваемая веб-сервером, ВСЕГДА должна совпадать с кодировкой, указанной в заголовке XML. Встречающиеся в тексте символы < > & ' " необходимо заменять на соответствующие элементы: & на & < на < > на > ' на ' " на " (здесь точка с запятой - это не разделитель данного списка, а обязательная часть элемента!) Замены должны производиться во всех элементах и - в , , , <enclosure> и др. Например, ссылка "http://some.host.ru/?id=1&page=10" приводится к виду "http://some.host.ru/?id=1&page=10". В случае, если RSS-файл передается в koi8-r, необходимо также заменить встречающиеся в тексте символы кодировки windows-1251 на аналоги из koi8-r: многоточие код симвода 133 en-dash (короткое тире), код симвода 150 em-dash (длинное тире), код симвода 151 "Русский" номер код симвода 185 Кавычки-"ёлочки" коды символов 171 и 187 "Сглаженные" кавычки-"лапки" коды символов 147 и 148 "Сглаженные" апострофы: коды символов 145 и 146 4. Механизм экспорта Данных Для экспорта Данных необходимо положить RSS-файл на сервер издания и обновлять его с определенной периодичностью (например, файл может пополняться в течение дня и перезаписываться утром). Файл должен быть доступен по http, его индексирование (скачивание) происходит каждые 10 минут. Экспортный файл, который не удалось полностью загрузить за 10 секунд, считается недоступным. 5. Пример экспортного файла <?xml version="1.0" encoding="windows-1251"?> <rss version="2.0" xmlns="http://backend.userland.com/rss2" xmlns:yandex="http://news.yandex.ru"> <channel> <title>Российские новости http://www.rossiyskie-novosti.ru/ Ежедневная иллюстрированная московская общественно-политическая газета. http://www.rossiyskie-novosti.ru/logo.gif Российские новости http://www.rossiyskie-novosti.ru/ Яндекс ищет на президентском сайте http://www.rossiyskie-novosti.ru/2003/03/25/yandex.html http://pda.rossiyskie-novosti.ru/2003/03/25/yandex.html Программный продукт Яndex.Site установлен на официальном сайте президента России Иван Петров Технологии Sun, 29 Sep 2002 19:59:01 +0400 message Для поиска по сайту www.kremlin.ru выбрана программа Яndex.Site. Этот программный продукт был исследован провайдером президентского сайта - Федеральным агентством правительственной связи и информации. ФАПСИ сочло возможным использование поисковой системы <Яндекса> на www.kremlin.ru. По результатам исследования программа была скомпилирована, протестирована и установлена на сайт. <Мы надеемся, - говорит руководитель пресс-службы Президента России Наталья Тимакова, - что хороший поиск поможет людям лучше ориентироваться на президентском сайте и получать исчерпывающую информацию>. Яndex.Site является частью пакета программных продуктов, предназначенного для поиска информации по одному или нескольким веб-сайтам, локального поиска или поиска в корпоративных сетях и базах данных. Он основан на тех же технологиях, что используются в поиске www.yandex.ru, и учитывает морфологию русского и многих других языков. Помимо Яndex.Site, компания <Яндекс> поставляет Яndex.CD - для поиска в коллекциях документов, издаваемых на CD ROM, и Яndex.Lib, предоставляющий низкоуровневые средства для встраивания поиска в любые другие программы. Президент России