автор |
сообщение |
creator
магистр
|
26 сентября 2017 г. 20:07 [нажмите здесь чтобы увидеть текст поста]
|
Есть ли среди вас подкованные в математике? Если да, то нужна ваша помощь! Видели объявление о новом алгоритме вычисления средневзвешенной оценки?.. Там используется формула вычисления веса доверия к оценкам посетителя. И я ею не в полной мере доволен. Хотелось бы сделать лучше.
Предварительная вводная. Посмотрите страницы, где нарисована гистограмма распределения оценок посетителя. К примеру, маргинальная одна: https://fantlab.ru/user43213/markspage2 Посмотрите их несколько таких, а лучше — много. Вы сами поймёте, что к каким-то у вас есть доверие, к каким-то нет. Задача сложная — преобразовать эту (интуитивную) степень доверия в формулу.
Если хотите поучаствовать, вызывайтесь. Всех, кто вызовется, я соберу в групповую переписку, и там будем обсуждать, спорить. Спасибо заранее!
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Gourmand
миротворец
|
27 сентября 2017 г. 00:55 [нажмите здесь чтобы увидеть текст поста]
|
то есть исходные данные — это только гистограмма оценок? Не будет ли это сильным усечением? В конце концов, гистограмму можно подделать так, что она будет соответствовать гистограмме самого доверенного пользователя. Давненько не брал в руки шашек, но мне кажется, что там, где нужно отсечь или занизить вес сомнительного поведения человека, используют экспертные системы, действующие на основе шаблонов поведения. Скажем, по приведённому примеру видно, что 1) Мартин оценивался по принципу "мыши кололись, плакали, но продолжали есть кактус". 2) Олди — "ну да, неплохой писатель, выставлю всем ромнам одинаково". 3) Аберкромби — "я фанат". Это видно не из гистограммы, а из списка наиболее оценённых авторов 1. Джордж Р. Р. Мартин 126 / 1.00 4. Генри Лайон Олди 22 / 7.00 7. Джо Аберкромби 9 / 10.00
Если же рассматривать поведение этого пользователя во времени, то видно, что сначала он прочитал Робин Хобб (фанат), затем Праттчета (почти фанат), затем дальше и дальше, при этом вёл себя вполне адекватно. И оценки его были вполне адекватные. (то 10, то 8. если 6, то дальше не читает цикл, см. Эльфийский лорд 342. Андрэ Нортон, Мерседес Лэки «Эльфийский лорд» / «Elvenborn», 2002 г. 6 — 07-04-2011 ). Потом был перерыв в 1,3 года. 176. Джордж Р. Р. Мартин «Песнь Льда и Огня» / «A Song of Ice and Fire» [Цикл] 1 — 27-01-2016 177. Джо Аберкромби «Красная страна» / «Red Country», 2012 г. 10 — 31-10-2014 И поведение пользователя резко изменилось. (К этому моменту у пользователя было 230 оценок). Сначала 1 всему Мартину за 1 день. Потом в течение февраля он брался то за одного, то за другого автора, выставлял оценки по принципу (10-ок, 7-так себе, 1-втопку), потыркался чуток летом и в начале осени и забросил сайт.
И чему я не должен доверять? Оценкам Мартина — безусловно. Оценкам Толстого, Достоевского (10-ки) на фоне единиц — безусловно. Повальной оценке Олди — несомненно. Но при этом я вполне верю оценкам пользователя до 2016 года.
Если пользоваться только гистограммой, эти нюансы не видны. Потому что это изменение во времени, завязанные на оценки одному автору.
|
––– Мы живём в надежде на избавление от тьмы, окружающей нас. (с) Пол Маккартни |
|
|
creator
магистр
|
27 сентября 2017 г. 07:32 [нажмите здесь чтобы увидеть текст поста]
|
цитата Gourmand то есть исходные данные — это только гистограмма оценок? Не будет ли это сильным усечением? В конце концов, гистограмму можно подделать так, что она будет соответствовать гистограмме самого доверенного пользователя.
Нет. Это лишь один из критериев. По остальным у меня вопросов нет. А вот "нормальность" гистограммы как посчитать корректнее — ломаю голову.
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
ЭльНора
миродержец
|
27 сентября 2017 г. 08:38 [нажмите здесь чтобы увидеть текст поста]
|
Не знаю, как это сделать, но я вижу шкалу так: Самая распространенная оценка на сайте — 7-8. Взять 7,5 за базовую точку. При увеличении краевых оценок 1 и 10 более определенного % от среднего вес оценок посетителя начинает падать. Например:
10 после отклонения более 50% от 7,5 ввести понижающий коэффициент: 50% десяток = 1 , 100% десяток=0,02. 9 после отклонения более 75% от 7,5 ввести понижающий коэффициент: 75% девяток = 1 , 100% десяток=0,04. 8 100% 7 100% 6 после отклонения более 89% от 7,5 ввести понижающий коэффициент: 89% шестерок = 1, 100% шестерок = 0,091 5 после отклонения более 78% от 7,5 ввести понижающий коэффициент: 78% пятерок = 1, 100% шестерок = 0,045 4 после отклонения более 67% от 7,5 ввести понижающий коэффициент: 67% единиц = 1, 100% единиц = 0,03 3 после отклонения более 56% от 7,5 ввести понижающий коэффициент: 56% единиц = 1, 100% единиц = 0,023 2 после отклонения более 45% от 7,5 ввести понижающий коэффициент: 45% единиц = 1, 100% единиц = 0,018 1 после отклонения более 34% от 7,5 ввести понижающий коэффициент: 34% единиц = 1, 100% единиц = 0,015
Т. е. вес единиц человека, у которого их 36% от 7,5 баллов будет 0,97.
|
|
|
Mindover
миротворец
|
27 сентября 2017 г. 08:52 [нажмите здесь чтобы увидеть текст поста]
|
Есть такое предложение. Сопоставлять все оценки с "идеальным" нормальным распределением при среднем балле 5,5 и среднем квадратичном отклонении 2. В таком распределении оценок 5 и 6 должно быть по 19,15%, 4 и 7 по 14,98%, 3 и 8 по 9,19%, 2 и 9 по 4,40%, а 1 и 10 — по 2,28%.
Допустим, у конкретного юзера оценок 1 оказалось 10%. Значит, они покрывают долю всех 1 и 2 в "идеальном" распределении, и еще захватывают 3,32% троек (из их общего количества 9,19%). В среднем получается, что каждая единица, поставленная данным юзером, в "идеальном" распределении соответствует оценке 2,104, то есть (2,28х1+4,40х2+3,32х3)/10. Так пересчитываем все оценки, и получаем соотвествие оценок конкретного пользователя идеальному симметричному нормальному распределению.
Или возьмем того пользователя, которого выше приводили в качестве примера. У него доля единиц 35,78%, то есть охватыввет все 1,2,3,4 и часть 5 в нормальном распределении. Если посчитать среднее — каждая его единица соответствует оценке 3,44. Доля 10 у него 19,36%, то есть в нормальном распределении поглощает все 10, 9, 8 и часть 7, а в среднем получается, что его 10 соответствует оценке 8,28.
При такой системе и поиск единомышленников станет более объективным, потому что оценки каждого будут привязаны к одной и той же системе отсчета, а не к его субъективному мнению, как оценивать посредственную книгу — тройкой, семеркой или тузом пятеркой.
|
––– Quos vult perdere, dementat |
|
|
Консул
миродержец
|
|
Mindover
миротворец
|
27 сентября 2017 г. 09:36 [нажмите здесь чтобы увидеть текст поста]
|
Консул Привязка к единой объективной шкале избавляет от необходимости гадать, о чем думал тот или иной пользователь, когла выставлял или не выставлял оценку.
|
––– Quos vult perdere, dementat |
|
|
Консул
миродержец
|
|
bbg
миротворец
|
27 сентября 2017 г. 09:58 [нажмите здесь чтобы увидеть текст поста]
|
Объясните кто-нибудь, зачем эта объективная оценка? Если, согласно политики сайта, оценки служат для выработки индивидуальных рекомендаций? Кто ставит десятки условному Тормашеву, будет получать в рекомендациях его. Кто ставит ему колы, его в рекомендациях получать не будет.
|
––– Стой, кто живёт! Здесь жить запрещено. Это вас касается, и это не смешно. Тема не в тексте, но в голове у читателя. |
|
|
oman
магистр
|
27 сентября 2017 г. 10:28 [нажмите здесь чтобы увидеть текст поста]
|
цитата Mindover Есть такое предложение. Сопоставлять все оценки с "идеальным" нормальным распределением при среднем балле 5,5 и среднем квадратичном отклонении 2.
Бред пишете. Про нормальность распределения вообще стоит забыть. Оно было бы так в вакууме, при случайном выборе книг, но так как на выбор книги(исходное множество) влияет куча критериев(рекомендации, "любимый" автор, рецензии, обложка, серия, конечно же, время потраченное на этот выбор и т.д.), то распределение будет изменено. Я бы сказал что снизу сильно срезано внизу(книги, которые сильно не понравятся, легко фильтровать...и средний человек не мазохист, чтобы их спецом читать) и несколько увеличено вверху( за счет критериев выбора в исходном множестве книг будет больше высокооцененных книг) от тех оценок, к которым читатель стремится(кто-то считает что готов потратить время на книгу от 6 баллов, а кто-то только от 8)
|
|
|
creator
магистр
|
27 сентября 2017 г. 10:44 [нажмите здесь чтобы увидеть текст поста]
|
Я однажды уже сравнивал с нормальным распределением. Под нормальным взял среднее по сайту: my @norm = (0,1,1,1,2,4,9,18,26,20,18); Но я уже склонен не привязываться к "норме". И в тот же момент не знаю как вот на такое, например, реагировать:
|
––– +7(996)730-00-00, Telegram https://t.me/crealist |
|
|
Mindover
миротворец
|
27 сентября 2017 г. 10:48 [нажмите здесь чтобы увидеть текст поста]
|
цитата oman кто-то считает что готов потратить время на книгу от 6 баллов, а кто-то только от 8
Вот только понимание, что такое 6 и что такое 8, у каждого свое. Никаких объективных критериев нет, а если бы и были — невозможно обеспечить их соблюдение.
Однако фактическое распределение оценок конкретного юзера характеризует его личную систему, и позволяет сопоставить ее с условной единой шкалой — посчитать, каким единым баллам соответсвуют его индивидуальные оценки.
Симметричное нормальное распределение предложено только потому, что оно самое простое. А вообще можно придумать любую другую шкалу, было бы желание.
|
––– Quos vult perdere, dementat |
|
|
Gourmand
миротворец
|
27 сентября 2017 г. 11:01 [нажмите здесь чтобы увидеть текст поста]
|
цитата creator И в тот же момент не знаю как вот на такое, например,
Шаблон поведения другой. Я об этом и писал. Ну, это как сангвиники и холерики. Разные типы. Приведённый вами — либо "максималист", либо "я знаю всего две оценки, чего заморачиваться?".
цитата Mindover фактическое распределение оценок конкретного юзера характеризует его личную систему
вот именно. Слепок сделать. Как отпечаток пальца.
|
––– Мы живём в надежде на избавление от тьмы, окружающей нас. (с) Пол Маккартни |
|
|
oman
магистр
|
27 сентября 2017 г. 11:02 [нажмите здесь чтобы увидеть текст поста]
|
цитата Mindover Однако фактическое распределение оценок конкретного юзера характеризует его личную систему, и позволяет сопоставить ее с условной единой шкалой — посчитать, каким единым баллам соответсвуют его индивидуальные оценки.
вы читали что я написал? у человека вообще может не быть выставлены 1-2, не из-за того что что он бы их не поставил, а т.к. не читает такую литературу, которой бы мог это поставить, или не дочитывает(а у нас нельзя ставить оценки в таком случае). А вы предлагаете его нормализировать — это бред.
|
|
|
oman
магистр
|
27 сентября 2017 г. 11:04 [нажмите здесь чтобы увидеть текст поста]
|
цитата creator my @norm = (0,1,1,1,2,4,9,18,26,20,18);
кстати, нормальное распределение получилось, почти как описал
|
|
|
oman
магистр
|
27 сентября 2017 г. 11:09 [нажмите здесь чтобы увидеть текст поста]
|
цитата creator И в тот же момент не знаю как вот на такое, например, реагировать:
в целом тоже "нормальное" если чисто на циферки смотреть — просто человек ограничивается двумя оценками хорошо или плохо, и пытается(!!!) как-то в них диверсификацию сделать
|
|
|