Все записи >> Обновление сервиса составление ТЗ 07.06.2019

Обновление сервиса составление ТЗ 07.06.2019

Обновил сервис составления ТЗ Textmania. Основные моменты:

  • пофиксил баг с URL, что содержат кириллицу. Раньше они некорректно обрабатывались, теперь все ок.
  • добавил опцию "Исключать повторяющиеся домены". Это значит, что если по запросам парсинга выдавались разные страницы одного домена, то останется только одна - та, что встретилась первая. Это позволит максимально разнобразить выдачу. По умолчанию эта опция выключена, включить можно в настройках.
  • добавил кэш на сутки. Если вы парсили какую-то группу, потом что-то пошло не так (закрыли вкладку, ошибка другая) - на протяжении 24-х часов можно пропарсить точно такую же группу бесплатно. Группа должна быть точно такая же, ключевые фразы и/или URL должны идти в том же порядке, чтобы сработал кэш.
  • пофиксил баг, когда в результат формировки могла попасть выдача гугла по картинкам.

Также обратите внимание на ограничение по минимальной/максимальной длине контента для парсинга. Если вы парсите большие сайты (например, Википедию), там размер контента может быть большой - 30-50 тысяч знаков. По умолчанию, максимальный размер контента установленный в 30 тысяч знаков, и в таком случае вам нужно его поднять.

Ограничение в 30 тысяч знаков стоит по причине, что часто сайты с большим размером контента - дорвеи, и анализировать их бессмысленно. Поэтому подходите к настройкам минимального/максимального размера контента с умом, и подстраивайте под свою нишу.