TiFlash统计分析很慢

是用的物理机嘛?

1 个赞

aws的云机器

1 个赞

链接:https://pan.baidu.com/s/1AnOJia0F6s3_5QZQ42ObMg 密码:rpwi
请及时下载,防连接失效

1 个赞

收到,感谢

1 个赞

我昨天新建了个表,tispark批处理往里写入,从未执行过analyze table,今天所有数据已写入完毕,但是看统计信息还是一点没更新,详见该贴:

是不是5.0.2 auto analyze 对新表有问题?

2 个赞

打完patch后,groupby 的可以下推tiflash了,像这种count distinct的现在是不会智能的改为group by是吧:

EXPLAIN ANALYZE SELECT
(COUNT(DISTINCT(IF(sentiment_type_id = 1, a.md5_doc_id, 0)))

COUNT(DISTINCT(IF(sentiment_type_id = -1, a.md5_doc_id, 0))))
/
(COUNT(DISTINCT(a.md5_doc_id))) AS “si(sentiment_score)”
FROM document_ndc_all a JOIN dim_fid_sentid b ON a.md5_doc_id = b.md5_doc_id
WHERE
pub_date_time BETWEEN ‘2021-02-25’ AND ‘2021-05-25’
AND b.folder_id IN (‘108487’,‘100508’,‘100510’)

EXPLAIN ANALYZE SELECT
COUNT(DISTINCT(a.md5_doc_id)) AS “countd(post_cnt)”
FROM poc.document_ndc_all a JOIN poc.dim_fid_sentid b ON a.md5_doc_id = b.md5_doc_id
WHERE
pub_date_time BETWEEN ‘2021-02-22’ AND ‘2021-05-25’
AND b.folder_id IN (‘108487’,‘100508’,‘100510’)

2 个赞

改写 group by 只是暂时 workaround;我们内部对这个 issue 有 PR了,正在 review 中。

3 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。