| От | Tom Lane |
|---|---|
| Тема | Re: tsvector pg_stats seems quite a bit off. |
| Дата | |
| Msg-id | 5735.1275230804@sss.pgh.pa.us обсуждение |
| Ответ на | Re: tsvector pg_stats seems quite a bit off. (Jan Urbański <wulczer@wulczer.org>) |
| Список | pgsql-hackers |
Jan Urbański <wulczer@wulczer.org> writes:
>> I think the only relevance of stopwords to the current problem is that
>> *if* stopwords have been removed, we would see a Zipfian distribution
>> with the first few entries removed, and I'm not sure if it's still
>> really Zipfian afterwards.
> That's why I was proposing to take s = 0.07 / (MCE-count + 10). But that probably doesn't matter much.
Oh, now I get the point of that. Yeah, it is probably a good idea.
If the input doesn't have stopwords removed, the worst that will happen
is we'll collect stats for an extra 10 or so lexemes, which will then
get thrown away when they don't fit into the MCE list. +1.
regards, tom lane
В списке pgsql-hackers по дате отправления:
Сайт использует файлы cookie для корректной работы и повышения удобства. Нажимая кнопку «Принять» или продолжая пользоваться сайтом, вы соглашаетесь на их использование в соответствии с Политикой в отношении обработки cookie ООО «ППГ», в том числе на передачу данных из файлов cookie сторонним статистическим и рекламным службам. Вы можете управлять настройками cookie через параметры вашего браузера