С.ОУ - 2. 3 Десять идей существующих языков, необычных для русского языка. 1 С.ОУ С.ОУ
Учебные материалы


С.ОУ - 2. 3 Десять идей существующих языков, необычных для русского языка. 1




С.ОУ

существующая клавиатура тоже частично следствие исторических случайностей. Её можно сделать под пальцы с раздвижкой клавиш под индивидуальные кисти рук (в том числе и с отсутствующими фалангами пальцев). Если же часть режимов устанавливать другими частями тела (не только ногами как в автомобиле), то понятно, что проблемы с клавиатурой нет. Кроме того, сегодня уже существуют и другие устройства ввода информации, например с голоса.

3.3

ПОТЕHЦИАЛЬHЫЕ КРАТКОСТЬ И ОБЪЕМ ЯЗЫКА. (СКОЛЬКО МОЖНО И НУЖНО?)

С.ОУ

, одной из сильных сторон английского языка является краткость: 70% английских слов в тексте - односложны (в китайском - почти все). Общее число слов оценивается в 300 - 500 тысяч, что совпадает с подобными объемами других языков. Сразу возникает первый вопрос, а сколько можно? Ответ чуть позже.
Вместе с тем, практика показывает, что, зная только 1000 самых распространенных слов иностранного языка, можно понять 70% информации, зная 3000 слов, можно понять до 95%. Дальнейшее расширение знаний практически не увеличивает понимания. В романе "12 стульев" авторы, сославшись на исследователей, сообщили, что словарь Шекспира насчитывал 12 тысяч слов. В материалах к частотному словарю языка Пушкина М.1963 говорится о 24224 словах. Сразу возникает второй вопрос, а сколько нужно? И вот тут следует задать третий вопрос: Почему словарь Пушкина в двое больше? А получив ответ - это влияние структуры языка (что-то типа: у нас - жил и жила два слова, у англичан - одно), задать эти вопросы иначе:

  1. сколько можно?

  2. сколько нужно обычному языку?

  3. сколько нужно

    ОУ

    языку?

3.3.1

СКОЛЬКО МОЖНО.
Посмотрим, сколько и каких слов ориентировочно можно построить, комбинируя сочетания из пяти букв (считая пока сочетания Аа и аА разными).

С
Г
СГ
ГС
СГС
ГСГ
ССГ
ГСС

Вариант 10 - 18 согласных [С] и 10 гласных [Г]

324
180
3240
3240
58320
32400
58320
58320

100
1800
1800
32400
18000
32400
32400

32400
32400
583200
324000
583200
583200


32400
583200
324000
583200
583200

Вариант 15 - 18 согласных [С] и 15 гласных [Г] ( включая ГЙ )

С
324
270
4860
4860
87480
72900
87480
87480

Г
225
4050
4050
72900
60750
72900
72900

СГ
72900
72900
1312200
1093500
1312200
1312200

ГС

72900
1312200
1093500
1312200
1312200

Число возможных слов по числу букв. Без учета ГГГ и ССС.

Букв (схема)
1 (С+Г)
2 (СС+ГС+СГ+ГГ)
3 (ССГ+СГС+ГСС+ГГС+ГСГ+СГГ)

Вариант 10Г
28
784
15120

Вариант 15Г
33
1089
26730

Число односложных ( не более чем трехбуквенных ) слов по варианту 10 = 28+2*180+3*3240=10'108, а по варианту 15 = 33+2*270+3*4860=15'153
При этом еще не учтены комбинаторные возможности тона и

Р_

знака (мягкость и долгота). Вспомним, в нашем варианте - 20 письменных и еще больше устных Г.
Следовательно, потенциал односложного языка избыточен, т.к. уже число 3х-буквенных слов (10'108) втрое превосходит 95% рубеж понимания. Но "можно", конечно, не значит "нужно"! Да и бумага "всё стерпит". Часть буквосочетаний трудно произносимы, а потому не нужны. Кроме того, часть слов должно пропасть в пустую (неполные классы!).
Однако, вряд ли язык должен быть односложным...

3.3.2

СКОЛЬКО НУЖНО ОБЫЧНОМУ ЯЗЫКУ?
И все же, а сколько нужно? Для этого рассмотрим исследования по одному из спонтанносформировавшихся - русскому языку. В первом приближении эти данные будут одинаковы и для остальных.
Вот что говорит нам частотный словарь Засориной Л.Н. (М 1977).
Из 1056382 (1 млн) словоупотреблений (около 40тыс слов) следующие 10 слов лидируют:

Номер
Слово
Словоупотреблений
Личный %
Общий %

1
В,во
42854
4.06
4.06

2
И
36266
3.43
7.49

3
Не
19288
1.83
9.32

4
На
17652
1.67
10.99

5
Я
13839
1.31
12.30

6
Быть
13307
1.26
13.56

7
Что
13185
1.25
14.8

8
Он
13143
1.24
16.05

9
С,со
12975
1.23
17.28

10
А
10719
1.01
18.29

Итак, первые 10 слов еще имеют личный % больше 1%, где-то на 103-ем слове переходится рубеж 0.1% (общий % первой сотни - 41,36%)
Вот эти слова:
как по же это весь который вы за бы ты то от,ото к,ко все мочь мы у один этот из,изо для она свой такой они так сказать но о,об,обо тот вот только еще говорить наш да себя знать год его нет большой до когда уже если дело другой чтобы или сам время какой идти ну новый самый человек мой люди первый рука кто стать жизнь видеть под надо ни очень без день два более при даже хотеть раз видать сейчас теперь товарищ здесь ли должен советский там работа думать глаз страна ведь земля ...
Еще несколько цифр характеризующих строй русского языка:
Рубеж 70% перейден на 1225 словах (100% - 39268, 95% - 12885, 50% - 230) (4%-1, 11%-4, 25%-22, 33%-44, 41%-100, 59%-500)
Итак, в первом приближении, ответ может звучать так: Для понимания 70% спонтанносформировавшегося языка необходимо 1225 слов. А для разумноорганизованного? Меньше, но об этом чуть позже.
Конечно, для других типов текстов (а тем более языков) эти цифры - другие. (

м

Частотный словарь русского литературного языка, Э.А.Штейнфельд, Таллин, 1963, 400 тысяч словоупотреблений. Первые 10 слов: и, в, на, не, он, я, что, с, этот, быть). Но характер строя будет таким же! И это главный ориентир к выбору слов для нашего языка.
Я считаю, что эволюция нашей цивилизации увеличивает долю экономических и технических знаний в общем объеме знаний. Т.е. сжатая и действительно структурированная информация патентов, законов, и инструкций все чаще встречается людям.
Поэтому, особо существенен следующий вывод авторов (стр.929): "Следовательно, наибольшей частотностью обладают "грамматические" слова, появление которых обусловлено строем языка, затем идут слова, отражающие тематику текстов." Подчиняясь этому выводу и учитывая предназначение и развитие языка, я думаю, лучше (Критерий "ЛУЧШЕ" - субъективен) отдать самые короткие слова и самые сильные связи самым распространенным, но не отдельным понятиям, а структурам! В том числе алгоритмическим языкам, цифрам, математическим операциям и конечно грамматике.
Так все же, сколько нужно? И опять обратимся к еще более ценному труду под редакцией Засориной Л.Н. (Образование употребительных слов русского языка М 1979). Более ценного, потому что в первом труде рассмотрено "Как", а в этом проанализировано "Почему", что и необходимо нам для синтеза "Зачем". И что же там?
Вот трудный путь анализа: 1056382 словоупотребления разделяются на 39268 слов или лучше не так. Миллион словоупотреблений, 40 тысяч слов, после фильтрации 32 тысячи гнездующихся, 4 - нет, 3.2 - отброшены. Далее 32 тысячи содержат 2600 гнезд. Причем, 1600 - 70% всего словаря, имеют частоту от 3х до 100. 500 гнезд - 42%, 100 гнезд - 26%. Точнее 26.6294% или 266682 словоупотребления, что явно больше тысячи слов.
Среди этих 100 гнезд лидируют следующие десятки:

Номер
Лидеры словоупотреблений
Лидеры продуктивности

Слово
Дериватов
Общее
Личный %
Слово
Дериватов
Общее
Личный %

1
Быть
128
17070
1.62
Стоять
284
8583
0.81

2
Стоять
284
8583
0.81
Водить
256
5747
0.54

3
Иметь
231
8325
0.79
Иметь
231
8325
0.79

4
Идти
36
7443
0.71
Ход
196
7285
0.69

5
Ход
196
7285
0.69
Вертеть
193
3078
0.29

6
Делать
153
6103
0.58
Лежать
179
3662
0.35

7
Знать
133
5963
0.56
Дать
169
4890
0.46

8
Водить
256
5747
0.54
Жить
158
3930
0.37

9
Мочь
133
5702
0.54
Род
157
4121
0.39

10
Стать
120
5540
0.52
Делать
153
6103
0.58

Итого
77761
7.36
55724
5.28

Итак, во втором приближении, ответ может звучать так: Для понимания 70% спонтанносформировавшегося языка необходимо 1600 гнезд. Но это больше 1225 слов? Да, но ведь цели исследователей были другими. И они с ними хорошо справились. Еще раз косвенно подтвердив соотношение 1000 слов и 70%.

Последнее изменение этой страницы: 2018-09-09;


dommodels.ru 2018 год. Все права принадлежат их авторам! Главная