Share This
Связаться со мной
Крути в низ
Categories
//Юристы из Гарварда обратили внимание на проблему «мертвых» ссылок в интернете

Юристы из Гарварда обратили внимание на проблему «мертвых» ссылок в интернете

25.05.2021Category : My Habr

juristy iz garvarda obratili vnimanie na problemu mertvyh ssylok v internete 9a334de - Юристы из Гарварда обратили внимание на проблему «мертвых» ссылок в интернете

Команда Гарвардской школы права изучила проблему «вымирания» ссылок и дрейфа контента в интернете. Исследователи проанализировали гиперссылки в статьях газеты New York Times начиная с запуска сайта NYT в 1996 году и до середины 2019 года. Исследование показало, что около четверти ссылок в статьях NYT нерабочие.

В 2014 году Гарвардская школа права уже изучала «мертвые» ссылки. Тогда выяснилось, что почти половина всех гиперссылок в заключениях Верховного суда ведет к контенту, который либо изменился с момента публикации, либо исчез из интернета. В новом исследовании команда из Гарварда изучила более 550 тысяч публикаций NYT, содержавших 2,2 миллиона ссылок на внешние сайты. Из них 72% были глубокими — то есть вели на конкретный контент. 

Команда обнаружила, что около 25% ссылок в статьях NYT, которые раньше указывали на какой-то ресурс, теперь не работают. Эта проблема коснулась 53% статей, выходивших в NYT за последние 25 лет, при этом в материалах за 2018 год недоступными стали 6% ссылок, а за 1998-й — целых 72%. 

juristy iz garvarda obratili vnimanie na problemu mertvyh ssylok v internete cc45009 - Юристы из Гарварда обратили внимание на проблему «мертвых» ссылок в интернете

Авторы исследования отмечают, что в некоторых разделах NYT процент «мертвых» URL-адресов намного выше. В разделе «Спорт», например, почти втрое больше неактивных ссылок, чем в разделе The Upshot. Эта разница в значительной степени связана со временем: средний возраст ссылки в The Upshot составляет 1450 дней, в разделе «Спорт» — 3196 дней.

Чтобы определить, какие разделы страдают больше всех, команда разработала метрику Relative Rot Rate («Относительная скорость гниения», RRR). Из пятнадцати разделов в которых больше всего статей, у раздела «Здоровье» были самые низкие показатели RRR. Раздел «Путешествия» показал самый высокий уровень «вымирания»: более 17% ссылок в статьях этого раздела оказались битыми.

Дрейф контента также является серьезной проблемой. Из-за этого явления ресурс по ссылке может расходиться со статьей. В качестве примера исследователи привели материал 2008 года о гонке в Конгресс со ссылкой на члена городского совета Нью-Йорка и на его страницу на сайте совета. Сегодня, щелкнув ту же ссылку, читатель перейдет на сайт действующего члена совета округа. 

Чтобы определить распространенность дрейфа контента, команда изучила 4500 неповрежденных URL-адресов. 13% ссылок из этой выборки значительно изменились с момента публикации; при этом ссылки из статей за 2009 год ведут на изменившиеся ресурсы в 25% случаев, в статьях за 2019 год — в 4% случаев.

Как указывают авторы статьи, для предотвращения потери ресурса по ссылке можно использовать сервис The Wayback Machine, предоставленный Архивом Интернета. В этом случае при утере страницы ссылка откроет ее копию из архива. Кроме того, в 2013 году Гарвардская школа запустила проект Perma.cc, который позволяет создать архивную версию страницы со ссылкой на первоисточник.

  • 1 views
  • 0 Comment

Leave a Reply

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Свежие комментарии

    Рубрики

    About Author 01.

    Roman Spiridonov
    Roman Spiridonov

    Привет ! Мне 38 лет, я работаю в области информационных технологий более 4 лет. Тут собрано самое интересное.

    Our Instagram 04.

    Categories 05.

    © Speccy 2020 / All rights reserved

    Связаться со мной
    Close