Компанией яндекс было проведено исследование сайтов рунета. Под «Рунетом» подразумевают все сайты написанные на русском, украинском, белорусском или казахском языках, а также сайты на любых языках, размещенные в национальных доменах .am, .az, .by, .ge, .kg, .kz, .md, .ru, .su, .tj, .ua или uz. Конечно информацию нельзя считать полной, но кое-что посмотреть интересно.
Полнота
Информацию нельзя считать полной, потому что:
- Интернет постоянно меняется и уследить за ним нериально
- Использованы только страницы из индекса Яндекса
- Использованы только страницы, которые доступны без ввода логина
Общая статистика
В Рунете 15 миллионов сайтов, это 6,5% от всего интернета(Netcraft посчитало, что во всем интернете 230 млн сайтов). Российских пользователей в интернете 35 млн, это 2,2% пользователей в мире(из 1,4 млрд пользователей в мире). Итак у яндекса вышло, что на пользователя из россии приходится больше сайтов, чем в среднем в мире. Обалденная статистика, но давайте смотреть правде в глаза: откинуто 7,7 млн пользователей из Украины, около 2,5 миллионов пользователей Беларуси. Для правильного подсчета, нужно делить весь «Рунет», между всеми русскоговорящими пользователями.
Суммарное количество текстов в интернете 140 тысяч Гигабайт(140 Терабайт). И это количество не учитывает количество дублей, когда новости кочуют между сайтами методом копипасты.
А вот интересная статистика о количестве страниц
На самом деле статистика совсем другая, просто снова идет умалчивание о способе сбора данных:
- указаны страницы из индекса яндекса, а он часто любит выбрасывать страницы, которые посчитал неправильными
- указаны страницы не требующие пароля, а это обычно и есть страница авторизации. Страница регистрации и тому подобное обычно запрещены файликом robots.txt
Эмоции
Слова, обозначающие позитивные эмоции и чувства, в интернете встречаются в два раза чаще, чем негативные.
Часто эмоции выражают смайлами, так вот грустных смайлов в 2,5 раза меньше чем веселых.
Приятно, что самые частые слова это любовь и добро. В бумажном словаре они не попали даже в топ-50. И после такой статистики кто-то предлагает читать книги, а не сидеть в интернете.
Правописание
Приятно, что доля орфографических ошибок и опечаток в словах всего 5-6%. Не знаю даже кого благодарить, то-ли грама-наци, то-ли встроенную проверку орфографии в программах.
В отчете упоминается интересный факт с кофе. По правилам русскгого языка это слово среднего рода. Однако сайтов с надписью «хороший кофе» в 12 раз больше, чем сайтов с правильным вариантом «хорошее кофе». «Черное кофе» проигрывает варианту «чорный кофе» в 16 раз, а «растворимый кофе» встречается в 19 раз чаще, чем «растворимое кофе».
Про написание иностранных слов в транслитерации говорить даже не стоит.
Спец слова и региональные названия
В топ слов попали технические термины, которые есть пракически на каждом сайте, на каждой странице: «регистрация», «посик», «сайт», «форум», «комментарий». Это значит лишь то, что поисковик неправильно определяет контекст слов. Логично предположить, что эти слова служебные и поисковикам нуно учится отделять их от содержания. Это увеличит релативность поисковой выдачи.
Обозначения российских регионов ледируют среди слов, описывающих местность. Дело не в том, что пользователям не интересны дальние страны, а в том, что эти названия часто пишут в профиле, а потом в каждом сообщении на форуме или блоге вставляется эта информация.
Вывод
Всегда интересно порыться в статистике и узнать какие-то интересные факты, но к информации нужно подходить с умом и делать выоды самостоятельно.
Источник
Скачать полный отчет вы можете на сайте яндекса: http://download.yandex.ru/company/yandex_on_content_autumn_2009.pdf
Неправильная раскладка: jnxtn zтвуч j heytnt
WP Minify | Участники конкурса «Лучший блог 2009″ |
Понравилась статья? Посоветуйте друзьям!
| Tweet | |
Понравилась статья? Подпишись на рассылку по E-Mail или в RSS.



