Интернет-энциклопедия Википедия представляет собой ценнейший источник сведений; прежде всего, сведений об окружающем мире. Особенный интерес этого ресурса в том, что он создаётся энтузиастами и потому открытый и бесплатный. Википедия создаётся одновременно на многих языках, и для башкирского языка соответствующий раздел энциклопедии имеет особенный статус как один из основных сайтов на башкирском, а, следовательно, как одна из крупнейших оцифрованных текстовых коллекций на этом языке. В наших отчётах о мониторинге Башнета мы уже говорили о том, какое место Башкирская Википедия занимает в башкирском сегменте Интернета.
Отчет о мониторинге БашнетаЗанимает 77 место по количеству статей среди всех разделов. По количеству статей, которые должны быть в каждом разделе Википедии, Башкирский раздел занимает 102 место».
Сегодня мы представляем результаты детального лингвистического (если быть точным: компьютерно-лингвистического) анализа этого источника по состоянию на 22 августа 2013 года. Предполагаем, что эти результаты могут быть и полезны для прикладных разработок, и просто занимательны.
№ | Код | Язык | Статей | Глубина | Страниц | Правок | Участн. | Акт. |
---|---|---|---|---|---|---|---|---|
77 | ba | Башкирский | 30694 | 7,9 | 64873 | 410845 | 8672 | 39 |
Взятая в совокупности Башкирская Википедия содержит 13 889 117 символов с пробелами или 12 023 002 символов без пробелов. В этом массиве точка встречается 181 418 раз, а запятая 124 100 раз. Собственно слов на башкирском языке (то есть за вычетом цифр, пунктуации и некириллической графики) насчитывается 1 734 031. Таким образом, средняя длина башкирского слова в символах составляет 6.38.
Средняя длина слова в слогах составляет 2.68. При этом слов чётной длины 939901, то есть 54.20 %, слов нечётной длины, соответственно, 749734, 43.24 %. Более детально: 2-сложное: 594278 (34.27 %), 4-сложное: 313168 (18.06 %), 6-сложное: 31844 (1.84 %), 8-сложное: 611 (0.04 %); 1-сложное: 187661 (10.82 %), 3-сложное: 496657 (28.64 %), 5-сложное: 62654 (3.61 %), 7-сложное: 2626 (0.15 %), 9-сложное: 136 (0.01 %). Наиболее длинные слова (длиннее 8 слогов): гидроэлектростанциялар, телерадиокомпание, идентификацияланғандар, электростанцияһындағы, регенерацияланғандарға, көнсығышфилософияһының, гидромеханизациялау, стилдәгеархитектуравәкиле, санэпидемстанцияһында, реорганизацияланған, цивилизацияларының, специализациялары, реабилитацияланғандан, механизациялаштырыу, концентрационлагерҙарға, палеонтологическими, интернационализация, кодификациялаштырылған, специализацияларҙы, лабораторияларында, базельуниверситетына, реабилитациялана, региондаметталлургия, реабилитацияланған, квалификацияларына, характеристикаларының, гидроэлектростанцияларҙа, телерадиокомпаниеһында, электроэнергетикала, демилитаризацияланған, юриспруденцияһындағы, ассимиляциялаштырылған, классификациялағанда, лесоперерабатывающее, самофинансирование, идентификацияланған, агломерацияларының, антидемократическая, кодификациялаштырылмаған, деревообрабатывающая, механизациялаштыра, мобилизацияланыуын, геннотерапевтического, исемдәгепровинцияһының, модификацияланғанға, характеристикаларына, реорганизациялауҙан, ассоциациялаштырыла, модификацияланмаған, николаевкайылғаһының, демобилизацияланып, көтмәгәндәсәләмәтлеге, специализацияһының, автобиографияһында, классификациялаштырыусы, нацияинациональная, деидеологизации, диалектологияһының, задокументированную, автобиографияһынан, революционерҙарына, классификациялағандағы, микобактерияларына, детерминацияланмаған, высокотехнологичные, рекомбинацияләнгәндә, телерадиокомпаниеһы, радиокомпаниеһында, гидроэлектростанцияларҙың.
Какая часть слов подчиняется закону гармонии гласных? В Википедии насчитывается 934870 (53.91 %) слов твёрдого варианта, 494902 (28.54 %) мягкого и 304259 (17.55 %) слов смешанного варианта.
Частотный список двухбуквенных сочетаний представлен на этой странице.
Анализ лексики продемонстрировал, что Википедия — это специфический тип текстов, на который, по всей видимости, ощутимо влияют жанровые особенности. Так, если в прошлый раз мы уже сталкивались с аномальной частотностью некоторых лексем, списывая это на повторяющиеся элементы в оформлении интернет-страниц, то при текущем анализе в рассмотрение брался только основной текст без «обвязки». Тем не менее, вершину частотного списка словоформ заняли значимые слова йылға, бассейны, һыу в то время как ожидавшиеся на этих позициях служебные слова не поднялись выше 7-го и 8-го места (тиклем, буйынса). По всей видимости, нужно учитывать, что из более чем 30 000 статей далеко не все представляют собой законченные тексты на естественном языке. Часть из них стали результатом так называемой «ботозаливки», то есть автоматизированного создания страниц и загрузки или изменения информации на страницах. «Ботостатьи, в основном, имеют в себе минимальное количество информации по рассматриваемой теме и играют роль, скорее, заготовок, то есть статей, которые планируется расширить и улучшить в будущем, за счет редактирования уже участниками Википедии, хотя многие подобные статьи могут оставаться нетронутыми годами с момента их создания». Этим и объясняются аномалии верхней части частотного списка. Если с точки зрения частотности тексты Википедии стали так слабо походить на естественный язык, то администраторам, по всей видимости, стоит снизить темп автоматического создания новых статей и задуматься над традиционным ручным наполнением энциклопедии.
Слова состоят из 11 057 755 букв.
Частотный список букв выглядит следующим образом:
№ | Буква | Количество |
---|---|---|
1 | а | 1253934 |
2 | ы | 1007270 |
3 | л | 739682 |
4 | н | 701853 |
5 | ә | 603839 |
6 | е | 570352 |
7 | р | 498337 |
8 | с | 477542 |
9 | й | 471303 |
10 | т | 420796 |
11 | к | 400596 |
12 | ғ | 382681 |
13 | у | 380874 |
14 | о | 378274 |
15 | м | 319008 |
16 | б | 307608 |
17 | и | 258089 |
18 | һ | 253648 |
19 | д | 209634 |
20 | ҡ | 184225 |
21 | ш | 165459 |
22 | г | 128140 |
23 | ө | 104721 |
24 | ү | 100250 |
25 | в | 90965 |
26 | я | 84517 |
27 | ҙ | 82061 |
28 | п | 68613 |
29 | ң | 66219 |
30 | х | 65771 |
31 | ь | 65486 |
32 | ч | 49075 |
33 | ҫ | 34559 |
34 | ж | 29890 |
35 | з | 26916 |
36 | э | 21245 |
37 | ю | 20908 |
38 | ц | 14926 |
39 | ф | 14851 |
40 | ъ | 2580 |
41 | щ | 1058 |
Top-20 самых частотных в Википедии словоформ:
№ | Словоформа | Количество |
---|---|---|
1 | йылға | 122849 |
2 | бассейны | 85709 |
3 | һыу | 64261 |
4 | км | 38644 |
5 | рәсәй | 33245 |
6 | йылғаһы | 30299 |
7 | тиклем | 28871 |
8 | буйынса | 25968 |
9 | урынлашҡан | 23200 |
10 | дәүләт | 20786 |
11 | хужалығы | 20257 |
12 | бәләкәй | 20231 |
13 | оҙонлоғо | 20152 |
14 | ҡушыла | 20068 |
15 | аға | 20064 |
16 | округында | 20035 |
17 | мәғлүмәте | 20029 |
18 | биләмәләрендә | 20029 |
19 | реестры | 20025 |
20 | өлкәһе | 20018 |
Расширенный перечень словоформ (первые 2000 единиц) можно посмотреть здесь.
Мы также обработали тексты Башкирской Википедии с помощью нашего морфологического анализатора, склеив леммы и составив статистику для уверенно распознанных форм. К сожалению, данные весьма приблизительны из-за неразрешённой в ряде случаев омонимии.
Top-20 самых частотных в Википедии лексем:
№ | Лексема | Количество |
---|---|---|
1 | йылға S | 183338 |
2 | йыл S | 134404 |
3 | бассейн S | 88594 |
4 | һыу S | 64529 |
5 | рәсәй S | 44293 |
6 | км S | 38645 |
7 | ҡу V | 36577 |
8 | ҡуш V | 36311 |
9 | тиклем POST | 28871 |
10 | буйынса POST | 25968 |
11 | мәғлүмәт S | 22628 |
12 | дәүләт S | 20975 |
13 | хужа S | 20406 |
14 | бәләкәй ADJ | 20302 |
15 | биләмә S | 20199 |
16 | округ S | 20194 |
17 | оҙон S | 20194 |
18 | ағ V | 20168 |
19 | ҡуш ADJ | 20159 |
20 | участка S | 20043 |
Расширенный перечень лемм (2000 единиц) можно посмотреть здесь.
Статистика по частям речи: существительное: 1200388, глагол: 293293, адъектив: 156162, послелог: 67428, союз: 22293, местоимение: 16623, числительное: 14242, частица: 9952, междометие: 1534.
Статистика глагольных времён: настоящее время: 120795, прошедшее неопределённое время: 42779, прошедшее определённое время: 10249, будущее неопределённое время: 2004, будущее определённое время: 139.
Статистика падежей существительных: основной: 491052, дательный: 193911, местно-временной: 67492, родительный: 42569, исходный: 23264, винительный: 21847, абессив: 486.