chain doc dot ok back item-arrow angle-left angle-right vk instagram linkedin facebook play-button mail-ic winged-letter nda
Все статьи Бизнес-wiki

Парсинг Яндекс Wordstat через XML River

Василий Русаков
Задать вопрос

Текст для всех, кто устал мучиться с настройками кей коллектора, прокси, аккаунтами Яндекс и антикапчей.

В течении весны-лета 2022 года, многие специалисты работающие с семантикой столкнулись с проблемой парсинга данных. Кей коллектор на парсит выдачу вордстат.
Собственно яндексоиды никогда особенно не хотели отдавать статистику в промышленных масштабах, а после очередного закручивания гаек на их стороне парсить частотность и выдачу привычными способами с помощью Key Collector 4 стало совсем проблематично, а танцы с бубнами в виде прогрева аккаунтов и прокси начали немного утомлять.

Сегодня мы хотим рассказать об альтернативном и недорогом способе парсинга Яндекс Вордстат с помощью связки Key Collector и XML River.

Истоки зла

Изначально в сеошных кругах вспыхнул необоснованный гнев и камни полетели в первую очередь в сторону разработчиков Key Collector. Многие решили, что проблема на их стороне и они буквально обязаны её решить в ближайшее время.

Подробно о ситуации с парсингом Яндекс можно почитать в официальной справке разработчика.

Для тех у кого нет времени читать вот немного цитат:

В связи с последними изменениями на стороне Яндекс на этапе входа в аккаунт могут возникать ошибки.
Проблема связана с введением дополнительной проверки владельца аккаунта через ответы на секретные вопросы, просьбу ввести код СМС, принятие телефонного звонка, проверки резервной почты и пр. Такую проверку система добавила, чтобы убедиться, что в аккаунт входит реальный его владелец, а не злоумышленник.
Сбор данных статистики подразумевает сложное взаимодействием между программой и целевым сервисом. При этом работа сервиса ни в какой мере нам неподвластна (мы не можем заставить работать сервис так, как нам хочется). Наоборот, мы можем лишь попытаться подстроиться под условия внешней среды.
К сожалению, по техническим причинам поддерживать сбор данных с каждым годом становится все сложнее технически.
Мы следим за ситуацией и будем надеяться, что сможем разработать стабильный метод работы и выпустим обновление. Однако, гарантировать решение и сроки мы не можем.

Мы считаем, что SEO-сообществу стоит остыть и поддержать разработчиков софта, которым за эти годы все мы спарсили миллионы запросов. И который, к слову, до сих пор продаёт пожизненную лицензию, а не месячную подписку.

Решение проблемы парсинга вордстат Яндекса

Спустя какое-то время Key Collector 4 (а также Key Assort) анонсировали интеграцию с сервисом xml River.

Этот сервис предоставляет возможность парсить ключевые фразы и базовую частотность из вордстат минуя необходимость заводить и прокачивать аккаунты, покупать прокси и решать капчу. Конечно это всё не благотворительность и сервис платный. Но сразу небольшой спойлер - он недорогой. На данный момент стоимость парсинга 1000 запросов начинается от 10 рублей. В базовом тарифе за тысячу просят 20 рублей, но и это немного, если вы конечно не работаете со стотысячной семантикой на ежедневной основе.

На момент написания статьи пришла новость, что аналогичные возможности появились в сервисе Arsenkin Tools. Инструмент в отличии от xml River позволяет снимать не только базовую, но также фразовую, точную и уточнённую частотности. Из минусов - формат подписки, базовая от 699 рублей в месяц. Если вы не работаете с семантикой на регулярной основе и не используете другие инструменты Арсёнкина, то это может быть не так уж выгодно. В случае с XML River вы тратите баланс по факту парсинга, а частоты можно снять альтернативными способами.

Прежде всего вам нужно зарегистрироваться в сервисе, пополнить баланс на произвольную сумму и выставить настройки для сбора фраз из вордстат.

Обязательно перейти во вкладку Wordstat и отметить в разделе устройства "все". В противном случае парсинг не заработает.

После этого уже можно переходить непосредственно к настройке интеграции с Key Collector.

Видео о быстрой настройки парсинга из вордстат

Настройка xml River в Key Collector

В коллекторе "из коробки" не было модуля для подключения этого сервиса, поэтому первое, что вам придётся сделать - это обновиться до последней актуальной версии.

Далее запускаем программу заходим в настройки - модули - xml River. Передвигаем ползунок в активное состояние и перезапускаем программу.

Вставляем полученный ранее в личном кабинете ключик в подразделе "Платные API":

Далее нужно проставить следующие настройки парсинга:

  1. Необходимое количество страниц (максимум Вордстат отдаёт 41 страницу).
  2. Частотность от и до которой собираем.

По умолчанию там выставлены нули и парсинг работать не будет. В остальном все настройки нам привычны, можно задать региональность и распределение по группам.

Максимальная скорость парсинга с XML River 10 потоков. Именно столько мы выставляем в настройках парсинга.

Стоит ли оно того?

Коротко резюмируя, этот способ заслуживает право на существование. Каждая отдельно взятая проблема парсинга требует индивидуального рассмотрения. В ряде случаев смена аккаунтов и прокси уже не помогают. А многие просто устали держать в голове эти моменты.

Описанный выше способ имеет как положительные, так и негативные моменты.

Плюсы:

  1. Не нужно думать об аккаунтах Яндекс, прокси и сервисах разгадывания капчи.
  2. Относительно высокая скорость и точность.
  3. Решение надоевших ошибок за 10 минут.

Минусы:

  1. Сервис платный.
  2. Не всегда собирает частотность по всем фразам, пока в стадии beta-версии.
  3. Не собирает точную частоту.

Немного о сборе частот

Собрать нужные вам частоты можно альтернативными способами.

  1. Пересобрать частотности коллектором из Директа, если у вас ещё не выдаёт проблем при использовании этого функциолнала.
  2. Вышеупомянутый сервис от Arsenkin.
  3. Собственный парсер от xml River. Софт незамысловатый, но рабочий. Увеличивает количество телодвижений. Спарсили в Key Collector - экспортировали слова в txt формате - сняли частотности в программке - вернулись в коллектор для чистки и кластеризации. Способ имеет право на жизнь, но на любителя. Неплохое видео о работе с программой от разработчика тут
  4. Есть интеграция с Key Assort, где также можно парсить точные частотности.
Учитывая, что сервис, в принципе, по карману любому фрилансеру, а некоторые так и не смогли решить проблему парсинга другими способами, интеграция xml River однозначно облегчает жизнь многим оптимизаторам в SEO продвижении сайтов, что не может не радовать.