Сообщение отредактировал Wrundel: 23:36:57 - 17.09.2012

Ветервхарю
#81
Отправлено 10:31:00 - 02.03.2012
#82
Отправлено 10:37:02 - 02.03.2012
#83
Отправлено 10:47:45 - 02.03.2012
#84
Отправлено 10:50:59 - 02.03.2012
Некую вербальную матрицу, характерную не только для меня. Некий рельеф самовыражения.Wrundel, вопрос что может увидеть Врундель в этом программном "зеркале", и узнать о Врунделе?
#85
Отправлено 10:53:14 - 02.03.2012
#86
Отправлено 11:07:39 - 02.03.2012
Некую вербальную матрицу, характерную не только для меня. Некий рельеф самовыражения.
Лучше что бы это была комната, с зеркалами, тогда будет более интересный эксперимент и комната станет ближе к названию "комнаты с зеркалами".
http://kinosbornik.n...322138959_5.png
теоретически посмотреть на литературного двойника возможно, и интересно, но надо помнить о алгоритме заклинания, фокусник может быть просто шарлатаном.
#87
Отправлено 11:18:10 - 02.03.2012
Значит блики от "зеркала" имеют цвет, а большего мне и не надо. Хотя я и не понял ни фига - я ж не читал этих авторов.)) Другое дело, что я натолкал туда своих текстов(как и многие иные графоманы), ими удобно теперь пользоваться, с другой стороны в пределе это всё хня - пусть ест.
#88
Отправлено 13:47:35 - 02.03.2012
Попробуй в других, там можно обнаружить детство. Прикольно, те книги которые забыл. Не авторов, не стиль, не сюжет; кусочек утерянного прошлого.Значит блики от "зеркала" имеют цвет, а большего мне и не надо
#89
Гость_zirius_*
Отправлено 15:41:12 - 02.03.2012
В-первых, извините за банальность, программа литературное мастерство не анализирует, а тупо считает буквы, слова и прочие запятые. ищет индивидуальные особенности распределения, частоту повторений и так далее. Дать заключение, хорош или плох текст, компьютеру невозможно в принципе.
В-вторых, шут с ним, с мастерством. Может ли железка определить авторство? Оказывается - да, может. Если. Перечислим эти самые "если":
1. Если пишущий умышленно не стремится обмануть компьютер. Казалось бы, ситуация ненормальная, никто никакой компьютер обманывать не собирается. Но: значительная доля произведений, особенно у начинающих авторов, написана как раз в виде поиска собственного стиля, или умышленно "под кого-то", или под влиянием внезапного желания написать в непривычной форме, соригинальничать. Программа в таких случаях пасует.
2. Более-менее устойчивые результаты получаются при анализе текстов объемом никак не менее 10000 слов (не символов). Что это значит? Это значит, что если у меня нет текстов Врунделя на 10000 слов (а это самый жестокий минимум), то не стоит и браться за компьютерное сравнение. В нашей песочнице далеко не у всех столько наберется, у меня, например, не набирается (рассказов, не постов).
3. Есть все же плодовитые авторы, есть. И есть у меня их базовый текстовый объем, или корпус, как говорят лингвисты. Выплывает еще одно ограничение. Математическая статистика, э, диалогов и авторской речи очень различна. Нельзя делать заключение по рассказу, построенному на диалогах, базируясь на статистике авторской речи. То есть, вышеприведенное правило 10000 слов удваивается, и мало того, отсюда вытекает, что машина должна различать, где диалог/монолог, а где авторские сентенции.
4. Предположим, все есть, есть и алгоритм разделения размышление-разговор. Берем рассказ Автора №8 и засовываем в машину. Машина сравнит с имеющимися у нее авторами и выдаст итоговую таблицу. Увы, она не скажет, кто это написал. Она скажет лишь, кто ближе подходит. Если автора в базе данных нет, то и ответа нет, мы ж не знаем заранее, есть ли он в базе.
Что все это дает, применительно к нашим конкурсам? В принципе, можно авторство определить, как я уже говорил, соблюдя все вышеперечисленное (на самом деле, проблем значительно больше, просто я или забыл про них написать, или не счел интересным). Но я, например, это делать не хочу. Исключительно из лени. Это ж надо собрать-найти сколько текстов, классифицировать, обсчитать и т.д., и т.п., следить за новичками, менять корпус в зависимости от роста авторского мастерства...И в результате иметь 60-80% попаданий.
Сообщение отредактировал zirius: 15:50:58 - 02.03.2012
#90
Отправлено 15:55:27 - 02.03.2012
Но я, например, это делать не хочу. Исключительно из лени. Это ж надо собрать-найти сколько текстов, классифицировать, обсчитать и т.д., и т.п., следить за новичками, менять корпус в зависимости от роста авторского мастерства...И в результате иметь 60-80% попаданий.
Зачем бесполезно тратить силы на определение авторства, когда можно подождать немного и всё авторство поднесут на блюдечке с голубой каёмочкой


#91
Гость_zirius_*
Отправлено 16:01:58 - 02.03.2012
Вот, например, 300 самых распространенных в русской литературе слов:
Слово частота на миллион слов
и 101167
в 53913
не 50305
что 42123
я 35629
на 32191
с 31815
он 27913
как 22305
а 21715
то 21003
это 16077
все 15681
но 15183
его 14793
так 13610
к 13436
же 12620
она 12498
у 11426
вы 11339
по 11304
да 11077
за 11071
меня 9421
бы 9261
ты 8839
мне 8796
было 8538
о 8517
от 8178
из 8136
только 8105
ее 7906
еще 7559
вот 6889
был 6272
ему 5850
нет 5792
теперь 5715
уже 5648
даже 5574
до 5297
ну 5168
когда 5159
ни 4996
ли 4964
вдруг 4802
быть 4733
если 4699
него 4448
вас 4388
уж 4244
вам 3987
или 3842
ведь 3841
для 3830
себя 3801
сказал 3785
может 3776
они 3757
есть 3708
во 3685
нибудь 3685
их 3680
очень 3625
мы 3596
тут 3516
была 3375
сам 3302
опять 3247
ничего 3220
со 3090
чем 3066
того 3054
раз 3021
н 2947
тебя 2939
там 2845
тебе 2836
потому 2812
себе 2802
где 2771
потом 2766
ей 2711
человек 2707
п 2707
под 2669
без 2664
тогда 2601
будто 2598
ж 2564
ней 2544
этого 2497
наконец 2490
чтобы 2477
этот 2466
совсем 2453
кто 2434
мой 2432
время 2375
были 2367
чего 2357
будет 2335
ним 2331
один 2309
тем 2299
какой 2292
при 2278
тоже 2252
б 2248
чтоб 2239
про 2187
всех 2180
дело 2139
знаю 2138
надо 2117
почти 2041
нас 1991
этом 1983
об 1934
говорит 1906
здесь 1886
после 1848
глаза 1842
хоть 1827
говорил 1820
них 1810
сказать 1795
всего 1784
т 1747
мог 1731
нее 1724
более 1700
можно 1680
день 1648
эти 1643
такой 1629
своей 1591
тот 1587
князь 1587
два 1585
никогда 1585
всегда 1578
всем 1573
свою 1555
хорошо 1549
между 1548
ко 1536
сейчас 1535
много 1530
перед 1523
точно 1520
том 1506
тотчас 1493
кажется 1491
несколько 1485
впрочем 1476
весь 1467
другой 1451
больше 1434
который 1403
стал 1394
ах 1391
друг 1386
им 1385
сердце 1380
д 1372
всю 1362
над 1361
иван 1361
такое 1355
минуту 1348
руки 1347
три 1346
петр 1344
александр 1339
говорю 1339
лучше 1334
совершенно 1329
хотя 1327
руку 1311
конечно 1305
спросил 1304
эту 1300
жизнь 1296
зачем 1288
куда 1287
сказала 1275
этой 1262
лет 1250
хотел 1246
нем 1232
своего 1230
лицо 1228
именно 1226
нам 1206
бог 1196
какая 1193
слова 1184
через 1181
таки 1173
стало 1173
голову 1149
чуть 1140
м 1135
сама 1134
прежде 1125
давно 1123
почему 1117
начал 1116
могу 1114
иногда 1108
нему 1098
знаете 1089
знает 1087
эта 1083
вся 1083
жизни 1071
свои 1060
однако 1055
нельзя 1055
разве 1052
одно 1043
моя 1041
говорить 1040
которые 1032
вместе 1026
свое 1025
прямо 1024
одна 1016
знал 1010
долго 1006
человека 1003
довольно 1000
ка 997
тому 996
хочу 990
самом 984
правда 979
думал 979
какие 976
просто 970
сегодня 968
отвечал 954
сами 951
мое 949
дома 945
какое 939
назад 936
ч 931
своим 927
алеша 922
та 915
господин 912
иваныч 912
непременно 903
буду 899
своих 891
люди 886
пр 881
нужно 879
оно 879
свой 878
делать 871
всг 867
слишком 861
пор 859
завтра 856
деньги 855
мало 855
одной 853
мной 853
вами 850
одного 835
кого 833
самого 833
деле 827
сколько 819
боже 814
те 812
обломов 807
особенно 804
таким 803
моей 801
думаю 798
две 797
з 795
заметил 792
пред 790
г 789
каким 778
казалось 774
действительно 773
ужасно 766
людей 761
пошел 755
иванович 755
лишь 754
которого 753
Сообщение отредактировал zirius: 16:09:04 - 02.03.2012
#92
Отправлено 16:21:15 - 02.03.2012
Слово из одной буквы? Я его за слово не считаю. Бесцветные какие-то эти самые распространённые слова. Одно только яркое попалось - "князь".Вот, например, 300 самых распространенных в русской литературе слов:
"Эх, князь, — говорит ни с того ни с сего, —
Ведь примешь ты смерть от коня своего!"©
#93
Гость_zirius_*
Отправлено 16:40:07 - 02.03.2012
#94
Отправлено 16:42:08 - 02.03.2012
zirius, НАШ - это чей, форумный или вообще?Любой наш рассказ на 30...45% состоит только из этих слов.
г,ч,з - что могут обозначать эти "слова" в рассказе?


Сообщение отредактировал Аватар: 16:46:16 - 02.03.2012
#95
Гость_zirius_*
Отправлено 16:50:27 - 02.03.2012
#96
Отправлено 17:09:51 - 02.03.2012
Я не против, пусть будет ЗириусЗ? не знаю, честно. Может, Зириус.

А сокращения хоть в старые, хоть в новые времена всегда пишутся с точками. Где точки после данных букв?
"В каждой строчке
Только точки
После буквы "л" ©
#97
Гость_zirius_*
Отправлено 17:15:48 - 02.03.2012
#98
Отправлено 17:21:27 - 02.03.2012
Человек, который научил машину распознавать слова, сам не всё знал. НедоучкаОткуда машине знать, сокращение это или конец предложения.


П.С. Зириус, надеюсь только, что не ты сочинил такую программу для машины

#99
Гость_zirius_*
Отправлено 17:29:43 - 02.03.2012
Вот наиболее употребляемые слова г.Лукьяненко, его любимые, не суперчасто используемые, но характерные именно ему. Их частота появления наиболее постоянна от текста к тексту.
Слово Частота на 1000 слов. Или не на 1000, забыл уже.
БУДТО 1,008605533
СЕБЯ 1,027112057
ЧЕЛОВЕК 1,036365319
ЧТОБЫ 1,036365319
ЧЕРЕЗ 1,064125104
ГДЕ 1,073378366
ХОРОШО 1,082631628
НИЧЕГО 1,119644675
НУ 1,119644675
КОНЕЧНО 1,128897937
ПОД 1,128897937
ОТВЕТИЛ 1,138151198
БУДЕТ 1,156657722
ВРЕМЯ 1,165910984
ТОЖЕ 1,175164245
ЭТОГО 1,184417507
КТО 1,193670769
ТАКОЙ 1,258443601
ПОТОМ 1,286203387
ДО 1,397242528
КИВНУЛ 1,397242528
ЭТОТ 1,443508837
ЕСТЬ 1,46201536
ВАС 1,471268622
НИ 1,489775146
ОДИН 1,499028408
МОЖЕТ 1,526788193
НЕГО 1,56380124
КОГДА 1,582307763
МНЕ 1,619320811
БЫТЬ 1,628574072
ЛИ 1,637827334
ИХ 1,647080596
ВОТ 1,730359952
ЧЕМ 1,748866475
ЛИШЬ 1,869158879
СПРОСИЛ 1,970944758
ТОЛЬКО 1,970944758
МЕНЯ 2,007957805
УЖЕ 2,109743685
ЕМУ 2,220782826
ИЛИ 2,220782826
ДАЖЕ 2,304062182
ЕСЛИ 2,304062182
ДЛЯ 2,313315444
ОЧЕНЬ 2,313315444
ЕЕ 2,359581753
О 2,3965948
НЕТ 2,572406773
ЕЩЕ 2,600166559
ДА 2,646432868
ТАК 2,785231794
БЫ 2,803738318
ЖЕ 2,961043768
ОТ 3,016563339
ЗА 3,932636254
СКАЗАЛ 4,302766725
ИЗ 4,58961784
ПО 4,58961784
КАК 4,645137411
ЕГО 4,765429814
У 5,126307023
ВСЕ 5,311372259
К 5,598223374
А 6,208938651
ТО 6,227445174
ЭТО 6,680855001
БЫЛ 9,179235681
НО 9,392060701
С 10,28962709
Сообщение отредактировал zirius: 17:41:12 - 02.03.2012
#100
Отправлено 17:33:23 - 02.03.2012
В общем, машина тупо считает слова и отдельные буквы, принимая их за слова. Что же это за статистика выходитНу что ты! Это из корпуса русской литературы, канон машинной лингвистики, в некотором роде.

Количество пользователей, читающих эту тему: 0
0 пользователей, 0 гостей, 0 скрытых пользователей