西西河

主题:【通报】2024年5月,关于最近网站不稳定的说明 -- 铁手

共:💬23 🌺141
分页树展主题 · 全看首页 上页
/ 2
下页 末页
    • 家园 我也坦白交代

      我在两三个月前为了求证一件事,写了一个简单的爬虫脚本。当时想着只查询index.html,不做展开,搜索的内容都是在cache里的,应该不会对服务器的负载有什么影响。现在看来还是不好的,下次不会了。

    • 家园 上周开始,网站多了个广告栏 -- 有补充

      在国内访问,半个屏幕被一个广告栏遮盖。该广告还关不掉。有点影响浏览。

      作者 对本帖的 补充(1)
      家园 补充说明 -- 补充帖

      在IOS手机端才会出现广告栏,在电脑上没广告栏哈。

    • 见前补充 4987435
    • 家园 建议搞一个西西河礼仪贴

      除了技术手段,也可以采取一些管理、规劝的手段。广大的群众,多数应该是有一定廉耻的。从思路上,给出建议+违反建议后的技术惩罚,比你自己辛苦纯靠技术防范一切,要节约你的精力。

      比如可以把使用爬虫列为不受欢迎行为,或者建议只在深夜某个时间段可以用。这样即使不能杜绝,也可以起到缓解的作用。或者指出如果用户使用爬虫,应该在爬虫中设置参数,至少每隔多少秒读取一次等等。我虽然不懂,但是猜测只要是程序,应该可以设置。

    • 家园 我也自首,5月23号开始自己写了个爬虫

      不过我的爬虫是单线程,4s访问一篇文章。这个流量不知道会不会对网站有影响。

      另外,想询问下老大,现在河里发主帖,是不是需要审查认可后方能看到。主帖审核期间,在哪里可以看到帖子目前的状态?

    • 家园 抱歉,上次分析发文数据有用过爬虫

      以后不会再用

    • 家园 cloudfare说它所有的客户包括free plan的都有

      bot/crawler protection。铁老大你进管理dash去看看waf那块能不能直接创建规则。刚看了眼它的waf也不贵,20-25刀一月,入门那款,这个处理你描述的第三条应该够用。

      • 家园 确实有,大致看了一下,感觉还是有点不放心

        主要是很难做到对正常用户的访问不产生误判。先留着这个口子,将来如果确实通过我这里的做法还是不行的话,再考虑实施。

        还有一个,可能是通过类似 CAPTCHA 验证。它有个类似的新工具,也许可以尝试。但是对爬虫,可能没有用。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河