最近国语高清免费观看视频,猫咪社区免费资源在线观看,蜜桃 中文字幕,99精品国产在热久久,少妇无码一区二区三区免费,粉嫩av国产一区二区三区,xxxxwwww中国,啊灬啊灬啊快日出水了
  • 專家抽取系統

    |

    評標室管理系統

    |

    倉庫管理系統

    |

    軟件定制開發

    |
  • 鄭州軟件開發電話: 15937160052
  • 爬蟲,反爬蟲爭斗了多年,鄭州網站建設簡單分析下原因
  • 發表日期:2018-08-01   瀏覽:2651   關鍵詞: 爬蟲 反爬蟲 鄭州網站建設
  • 鄭州網站建設

    在一大堆技術術語里,最為被普通人所熟知的大概就是“爬蟲”了。其實爬蟲這個名字就已經特別好地表現出了這項技術的作用——像密密麻麻的蟲子一樣分布在網絡上,爬行至每一個角落獲取數據;也一定程度上表達了人們對這項技術的情感傾向——蟲子或許無害,但總是不受歡迎的。

    有關爬蟲的功能、益處或危害,此前已經有過很多討論。因為爬蟲技術造成的大量IP訪問網站侵占帶寬資源、以及用戶隱私和知識產權等危害,很多互聯網企業都會花大力氣進行“反爬蟲”。

    相比爬蟲技術本身,反爬蟲其實更加復雜,發展歷程也更加有趣。

    我們如何反爬蟲?

    先禮后兵、再對簿公堂

    幾乎是和爬蟲技術誕生的同一時刻,反爬蟲技術也誕生了。在 90 年代開始有搜索引擎網站利用爬蟲技術抓取網站時,一些搜索引擎從業者和鄭州網站建設站長通過郵件討論定下了一項“君子協議”—— robots.txt。即網站有權規定網站中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取。這樣既可以保護隱私和敏感信息,又可以被搜索引擎收錄、增加流量。

    爬蟲技術剛剛誕生時我們還處于上古時代,互聯網是一片賢者云集的樂土,大多數從業者都會默守這一協定,畢竟那時候信息和數據都沒什么油水可撈。但很快互聯網上開始充斥著商品信息、機票價格、個人隱私……在利益的誘惑下,自然有些人會開始違法爬蟲協議了。

    當君子協議失效,我們開始改用技術手段阻攔爬蟲的入侵。比如從訪問數量上發現爬蟲,當我們在某一網站瀏覽過快時,系統往往會要求輸入驗證碼,就是因為這種快速瀏覽的行為很接近爬蟲。或者是不定期改變HTML標簽,使之無法與Web排序匹配來限制爬蟲。

    但是即便如此,我們也沒有任何方法可以禁止爬蟲在網站中出入,只能加大爬蟲的訪問難度。如果網站可以供給人類訪問,就一定也可以被爬蟲訪問。而且如果從底層完全組織爬蟲抓取,也很可能讓網站無法被搜索引擎收錄。

    所以,在所有的先禮后兵都對爬蟲失效時。最后反爬蟲的手段只有最后一項——對簿公堂。

    兩場官司和十七年,

    爬蟲沒變,我們變了

    歷史上第一樁關于爬蟲的官司誕生在 2000 年,eBay將一家聚合價格信息的比價網站BE告上了法庭,eBay聲稱自己已經將哪些信息不能抓取寫進了爬蟲協議中,但BE違反了這一協議。但BE認為eBay上的內容屬于用戶集體貢獻而不歸用戶所有,爬蟲協議不能用作法律參考。

    最后經過業內反復討論和法庭上的幾輪唇槍舌戰,最終以eBay勝訴告終,也開了用爬蟲協議作為主要參考的先河。

    但這也引起了很多人的不滿,難道爬蟲能不能爬、怎么爬、誰的爬蟲能爬,都得由被爬的公司決定嗎?掌握了這種權力時,商業世界的唯利和自私立刻暴露無遺。

    有一個說法是,互聯網上50%的流量都是爬蟲創造的。這個說法雖然夸張了點,但也體現出了爬蟲的無處不在。爬蟲之所以無處不在,是因為爬蟲可以為互聯網企業帶來收益。

    鄭州網站建設

    就拿電商網站來說,很多電商網站是愿意被比價網站或者其他購物信息網站爬取信息的,因為這樣能夠給他們的商品帶來更多流量。但他們不愿意被其他電商網站獲取價格信息和商品描述,因為擔心其他電商網站惡意比價或進行抄襲。同時他們又經常去爬其他電商網站的數據,希望能夠看到別人的價格。

    這種糾結又復雜的心情就像學霸間的競爭,學霸可以給學渣抄筆記,因為知道學渣再怎么努力也就是六七十分的水平,但學霸對其他學霸一定會嚴防死守,因為只有學霸和學霸之間才有真正的競爭。所以像京東和淘寶這樣的“頂級學霸”都會在協議中寫清楚,禁止對方爬取數據。當然,至于雙方是否遵守這一君子協定就很難說了。

    同時也有一些網站,一開始會默許其他網站爬取數據,一段時間過后卻又會將爬取數據的網站告上法庭。最典型的例子就是領英,領英在 2017 年曾經將一家名為HiQ的數據分析企業告上法庭,原因是認定這家企業抓取領英用戶的就職狀態信息,提供給另外兩家利用機器學習分析員工跳槽傾向和職業技能的企業。

    結果卻是即使打著保護用戶隱私的旗號,領英仍然敗訴并且被聯邦法庭要求開放數據接口。原因是HiQ已經這樣爬取領英的數據長達五年,領英一直知情并且曾經去參加過HiQ組織的論壇峰會。如今領英自己開展了和HiQ類似的業務,就要斷了HiQ的生路。

    從 2000 年到 2017 年,之所以會有這兩場結局截然不同的官司,是因為我們制造爬蟲和反爬蟲的初衷都發生了變化。從一開始的獲取信息和保護隱私,變成了如今的獲取商業利益和反制對手

    爬蟲制造者說:

    道德是反爬蟲的最好方法?

    就著這個話題,我們還和兩位碼Python的程序員朋友聊了聊。

    要知道程序員們是一種非常具有個性的生物,很難在問題中達成一致,尤其是在“什么才是最好的語言”、“早期的錘子手機是不是垃圾”這樣的問題上。但在反爬蟲的問題上,程序員們似乎呈現出了空前的一致。

    一位就職于小型OTA的程序員表示,公司在剛剛起步時經常會要求他們爬取旅游網站的旅游路線,這時他們通常會選擇中青旅遨游網這樣傳統企業基因更濃厚的網站,因為他們“反爬蟲能力幾乎為0”。

    而另一位大廠程序員表示,公司通常會把爬取數據這樣的臟活累活外包出去,而在反爬蟲時,如果數據爬取方技術足夠好,不給服務器帶來過分的帶寬壓力,在滿足了KPI前提下他們甚至會睜一只眼閉一只眼。

    同時雙方都承認,有時候會自己出于興趣制作一些小爬蟲程序,方便獲取一些數據。

    在提到爬蟲技術的合法性時,他們告訴我,法律很難阻止爬蟲技術。除非在競品之間、涉及到對用戶原創內容的批量搬運,類似之前 360 快視頻批量搬運B站視頻、以及近期出現的大眾點評批量搬運小紅書內容等等。至于那些爬取他人數據用作分析的,一方面難以取證確定對象,另一方面整個訴訟過程會非常漫長,企業很難清楚的展現出自己哪里受了損失,通常是以“不正當競爭”這樣的萬金油控訴對方。

    當我們問到他們,從技術角度有沒有什么好的反爬蟲手段時,他們告訴我最好的反爬蟲手段并非技術也并非法律,而是公關——帶上截圖找幾個媒體爆料一下,帶點侵權、入侵數據庫、隱私信息方面的影射,就可以立刻從道德的制高點搞臭對方,讓人不會注意到你司的反爬蟲技術不到位。如果對方是上市公司,效果更佳。

    當AI時代遇上AI爬蟲,

    戰爭才剛剛開始

    “道德反爬蟲”雖然只是笑談,但一定程度上表示出了企業技術人員對爬蟲的無可奈何。但可以預見的是,隨著大數據和機器學習應用越來越廣,對爬蟲睜一只眼閉一只眼、與爬蟲和平共處的時代很快就要過去了。

    最主要的問題是,爬蟲的出現會極大地增加數據分析難度。

    當數據分析企業利用爬蟲獲取數據進行分析時,大量爬蟲的存在正在讓這些數據失實。文章瀏覽量的失實讓我們誤判人們對新聞事實的關注程度、爬蟲衍生出的虛擬IP需要在數據清洗時剔除……技術越高超的爬蟲,在行為模式上就越接近真人,也就更加增加數據分析時的難度。久而久之,那些我們以為從人類行為中尋找規律的算法,反而尋找到的是機器人的行為規律。

    同時爬蟲帶來的流量波動也會讓機器學習算法產生誤判。

    最典型的例子是機票的動態定價,網站會結合當下瀏覽量判定機票的搶手程度并且調整價格。這時如果有大量爬蟲在瀏覽網站,算法就會給出和實際情況并不符合的定價,也損傷了消費者購買到廉價產品的權益。

    甚至一些數據分析企業還打出了“AI爬蟲”的招牌,讓爬蟲腳本的行為模式更加接普通用戶,讓被爬的企業難以發掘,甚至還會利用圖像識別技術破解網站用作攔截的驗證碼。

    在這種情況下,網站分辨人與機器人就變得更加困難也更加重要。很多網站也開始利用機器學習技術反制AI爬蟲,比如為圖形驗證碼動態打碼應對圖像識別。同時現在PC和移動終端的硬件技術發展,也讓生物識別這種更復雜的驗證手段有可能加入戰斗。雙方正在站在同一水平線上,利用技術互相斗法。

    可以說爬蟲技術和反爬蟲技術之間斗爭了十幾年,可真正的“戰爭”卻從現在才剛剛開始。在徹底制服惡意爬蟲之前,對于一切大數據、精準預測之類的“吹噓”,我們最好保持著三分懷疑。

  • 相關新聞
    • 如何搭建景區網站建設?
      搭建一個景區網站建設的很有必要的,因為做了網站可以增加客戶對旅游景點的信任,還有一方面是能讓旅游企業獲得更多
      日期:2022-09-02 瀏覽:3104
      電商網站建設為什么要獨立開發?
      線上購物的基礎就來源于企業的電商網站建設,做好電商網站,才能讓客戶在線上購物,而且現在市面上有很多的電商網站
      日期:2022-03-24 瀏覽:3782
      鄭州建網站細節分析說明
      鄭州建網站要重視產品介紹和展示,作為網站建設,其最重要的一個特點就是能夠較好的進行產品的推廣和宣傳
      日期:2021-12-26 瀏覽:3914
  • 一個企業的成長,從無到有,從一個人到一群人,從一種元素到元素集合;或多或少、都要有品牌意識的存在……
  • 主站蜘蛛池模板: 国产一区二区三区在线视頻 | 欧美成人aaa片一区国产精品| 最新亚洲av电影网站| 久久久精品人妻无码专区不卡| 欧美a级片一区二区三区| 少妇爽到呻吟的视频| 亚洲永久无码7777kkk| 毛片免费视频| 人妻少妇被猛烈进入中文字幕| 忘忧草www日本韩国| 欧洲裸毛bbbbbxxxx| 我的乳在厨房被揉搓| 二人世界完整版在线观看| 人人摸人人搞人人透| 亚洲国产香蕉碰碰人人| 天堂在线中文网www| 日韩午夜福利无码专区a | 午夜片少妇无码区在线观看| 高潮毛片无遮挡高清视频播放 | 中文天堂资源| 久久久久无码国产精品不卡| 18禁床震无遮掩视频| 丰满肥妇bbwbbwbbwbbw| 国产肥白大熟妇bbbb视频| 性高朝久久久久久久久久| 一出一进一爽一粗一大视频免费的| 国产亚洲无线码一区二区| 欧美巨大xxxx做受| 熟妇的奶头又大又长奶水视频 | 欧美亚洲国产精品久久蜜芽直播 | 成全动漫在线观看免费高清| 成年免费视频黄网站在线观看| 亚洲色偷偷av| 成人年无码av片在线观看| 中国帅小伙gaysextubevideo| 久久精品国产亚洲av无码偷窥 | 777午夜精品免费观看| a网站在线观看| 亚洲欧洲日产国码久在线| gogogo香港高清免费完整版| 偷窥 亚洲 另类 图片 熟女|