免费看aⅴ,天天插天天干天天射,呦女网,入逼逼


您現(xiàn)在的位置:智能制造網(wǎng)>新聞首頁>人物故事

鄭宇:大數(shù)據(jù)時(shí)代缺的不是數(shù)據(jù) 而是開放的思維

發(fā)布時(shí)間:2017年04月21日 10:09來源:智能制造網(wǎng) 編輯:一不做人氣:40347


  大數(shù)據(jù)時(shí)代我們真的不再缺數(shù)據(jù)了
 
  缺得是我們的思維不夠開放
 
  
 
  Q:一個(gè)好的數(shù)據(jù)科學(xué)家關(guān)鍵的品質(zhì)是什么?
 
  鄭宇:你會(huì)發(fā)現(xiàn)在大數(shù)據(jù)時(shí)代我們真的不再缺數(shù)據(jù)了,缺得是我們的思維不夠開放,思考問題A的時(shí)候不要一直看問題A的數(shù)據(jù),其實(shí)會(huì)發(fā)現(xiàn)問題B和C的數(shù)據(jù)都可以拿來用,而且這個(gè)數(shù)據(jù)完全可以不是你這個(gè)領(lǐng)域的數(shù)據(jù)。只有你對(duì)這個(gè)問題理解深刻以后才能把別的數(shù)據(jù)背后的知識(shí)拿過來做融合。很多時(shí)候項(xiàng)目推動(dòng)不了不是人數(shù)不夠,而是因?yàn)槿狈χ虚g靈魂的頭腦,培養(yǎng)這樣的人其實(shí)是非常困難的。以我個(gè)人的經(jīng)驗(yàn)至少七到十年才能培養(yǎng)出這樣一個(gè)真正的數(shù)據(jù)科學(xué)家來,這樣一個(gè)人可以解決很多問題。所以我鼓勵(lì)大家,你至少讀一個(gè)五年P(guān)HD加兩年的實(shí)戰(zhàn)經(jīng)驗(yàn),基本上可以來做這樣的事情。
 
  Q:那么算法的理論知識(shí)和實(shí)際項(xiàng)目的實(shí)踐經(jīng)驗(yàn)?zāi)膫€(gè)更重要?
 
  鄭宇:兩個(gè)方面都很重要,但是后者的學(xué)習(xí)和獲取過程更困難。
 
  數(shù)據(jù)挖掘的模型你可能拿本書學(xué)個(gè)兩三年基本能學(xué)會(huì)一些模型,但是很多項(xiàng)目的經(jīng)驗(yàn),你的真的很少有機(jī)會(huì)接觸到這樣的項(xiàng)目。只有把系統(tǒng)部署到真實(shí)世界中用起來,拿到新的反饋,再改進(jìn)模型,經(jīng)過這幾次迭代過程你會(huì)學(xué)到很多東西,但是這個(gè)機(jī)會(huì)特別少,特別難得。而且你從后者怎么吸取和提煉這種經(jīng)驗(yàn)也很重要,如果沒有總結(jié)能力和提取能力的話,換個(gè)新問題你還是不會(huì)做。所以我覺得這兩者都重要,后者培養(yǎng)起來更加困難一點(diǎn)。
 
  Q:您怎么看待數(shù)據(jù)驅(qū)動(dòng)?數(shù)據(jù)驅(qū)動(dòng)在一個(gè)企業(yè)可以輔助商業(yè)決策,請(qǐng)列舉在過去幾年利用數(shù)據(jù)解決研究問題/發(fā)現(xiàn)觀點(diǎn)的一個(gè)有趣的例子。
 
  鄭宇:從商業(yè)選址到空氣質(zhì)量預(yù)測,數(shù)據(jù)驅(qū)動(dòng)的方法已經(jīng)多次作出了有效的決策。比如,合理的為商業(yè)店面選址可以帶來更多的人氣,提升商業(yè)的收益并降低企業(yè)的投入。通過數(shù)據(jù)驅(qū)動(dòng)的方法為充電樁選址,可以讓有限的資源為更多車服務(wù),并且避免過度擁堵。另外,在住宅地產(chǎn)選址的過程中,我們發(fā)現(xiàn)除了學(xué)區(qū)房,影響小區(qū)價(jià)值的另一個(gè)重要因素是該小區(qū)通向近高速公路入口的路網(wǎng)距離(或者通行時(shí)間)。位置很近的兩個(gè)小區(qū),其價(jià)值(根據(jù)同一市場環(huán)境下的漲幅比來確定)可以相差很遠(yuǎn)。
 
  關(guān)于數(shù)據(jù)模型資產(chǎn)的復(fù)用
 
  有兩個(gè)東西可以轉(zhuǎn)移
 
  
 
  Q:北上廣這些城市的數(shù)據(jù)化基礎(chǔ)設(shè)施比較好,那么在這些地區(qū)做城市研究會(huì)相對(duì)可操作,但是,在其他的比較落后的地區(qū)如何開展相關(guān)城市計(jì)算研究呢?
 
  鄭宇:我們在研究中,會(huì)遇到有兩個(gè)類似的模型應(yīng)用場景的情況,但是我們不能直接把在A場景做的模型應(yīng)用到B場景去,這時(shí)候,我建議基于遷移學(xué)習(xí)的方法來做不同場景間的知識(shí)的轉(zhuǎn)移。有兩個(gè)東西可以轉(zhuǎn)移:
 
  ,數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系可以轉(zhuǎn)移:比如說出現(xiàn)擁堵的時(shí)候空氣質(zhì)量會(huì)變壞,當(dāng)濕度比較高的時(shí)候容易形成霧霾。這種數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系在很多地方都是普遍存在的,可以在A 城市里面用豐富的數(shù)據(jù)訓(xùn)練出一些字典,然后以此為基準(zhǔn)復(fù)用到B、C、D城市去。
 
  第二,利用隱含空間:數(shù)據(jù)本身可能不能轉(zhuǎn)移,但是把數(shù)據(jù)投影到隱含空間以后,不同城市的數(shù)據(jù)就可以共享。我舉個(gè)隱含空間的例子,比如北京市的交通流量和寧波市的交通流量肯定很不一樣,但是它們投影到隱含空間里面可能都是早高峰堵、晚高峰堵中間不堵,如果都能投影到類似的隱含空間以后,不同城市的數(shù)據(jù)就可以共享和利用。
 
  Q:如何選擇模型特征?
 
  鄭宇:在做模型特征選擇時(shí),數(shù)據(jù)質(zhì)量比特征重要,特征比模型重要。
 
  ,如果你根本都沒這個(gè)數(shù)據(jù)的話你可能費(fèi)很大勁設(shè)計(jì)各種模型才能得到一點(diǎn)好的結(jié)果,如果你的數(shù)據(jù)質(zhì)量很好,你有這個(gè)數(shù)據(jù)了,就很容易得到結(jié)果。
 
  第二,業(yè)務(wù)理解深度和對(duì)數(shù)據(jù)的敏感度決定了你能找到的特征好壞。如果提了很好的特征,可能根據(jù)兩三個(gè)特征就能得到別人十幾個(gè)特征的不得結(jié)果。我們提取什么特征完全取決于我們對(duì)問題本身的理解,所以我著眼在與行業(yè)知識(shí)結(jié)合,數(shù)據(jù)挖掘其實(shí)是一個(gè)發(fā)現(xiàn)知識(shí)的過程,我們需要有從數(shù)據(jù)里面提煉知識(shí)解決問題的能力。
 
  第三,數(shù)據(jù)越大、質(zhì)量越好,特征的選擇的必要性越低。在傳統(tǒng)的數(shù)據(jù)挖掘里往往有很多參數(shù)但訓(xùn)練樣本又很少,所以不得不進(jìn)行特征優(yōu)選,使得訓(xùn)練樣本還是那么多,但是參數(shù)變少,這樣可以保證訓(xùn)練效果跟以前不差甚至更好。而現(xiàn)在我們擁有海量數(shù)據(jù)了,哪怕多選了一些冗余的特征,也可以依靠后面模型的力量來通過權(quán)重參數(shù)的做約束,越來越多的機(jī)器學(xué)習(xí)算法本身就考慮了特征的冗余性問題,所以在你擁有足夠大的高質(zhì)量數(shù)據(jù)之后,是沒必要花費(fèi)太多的精力在特征剔除上。
 
  有問題的時(shí)候不要
 
  先去看別人怎么做的
 
  重要的是你是否真的
 
  對(duì)用數(shù)據(jù)解決問題感興趣
 
  
 
  Q:怎么決定研究方向?
 
  鄭宇:我們基本上所有的工作都來源對(duì)生活的觀察。重要的一點(diǎn)是你是否真的對(duì)用數(shù)據(jù)解決問題感興趣,你真正能夠體會(huì)到這種樂趣的時(shí)候就進(jìn)入狀態(tài)了。
 
  通常我們在看到現(xiàn)實(shí)生活中真的有很難的題目后,會(huì)在設(shè)計(jì)完方法以后再看有沒有相關(guān)的工作做過了,這避免了我們的思路跟別人重復(fù)。再此我也建議大家,如果你有問題的時(shí)候不要先去看別人怎么做的,很多學(xué)生喜歡這么想,看到一個(gè)題目馬上就去搜別人怎么做的,然后馬上跟著別人思路走進(jìn)去了,很難有創(chuàng)造性的思維。
 
  Q:對(duì)于希望進(jìn)入數(shù)據(jù)領(lǐng)域的工程師,分析師們,您希望他們加強(qiáng)哪方面的技能培養(yǎng)?
 
  ,加強(qiáng)數(shù)據(jù)科學(xué)的基本技能培養(yǎng),包括數(shù)據(jù)管理、機(jī)器學(xué)習(xí)和可視化技術(shù)以及云計(jì)算平臺(tái)的使用。
 
  第二,加強(qiáng)對(duì)要解決問題所在行業(yè)的了解,借助行業(yè)現(xiàn)有的知識(shí)來設(shè)計(jì)合理的數(shù)據(jù)模型,明確行業(yè)傳統(tǒng)方法為什么不行,并懂得跟行業(yè)專家有效溝通。
 
  第三,培養(yǎng)溝通和表達(dá)能力。現(xiàn)在的數(shù)據(jù)科學(xué)家不再是關(guān)起門來在家里閉門造車的工匠或者學(xué)者,他需要把深?yuàn)W的問題和理論用淺顯的語言講出來,讓政府以及傳統(tǒng)行業(yè)的客戶能夠明白。
 
  后,培養(yǎng)自己的創(chuàng)作力。很多時(shí)候客戶是提不出需求的,作為一個(gè)數(shù)據(jù)科學(xué)家要有超前的想象力和犀利的創(chuàng)造力。這點(diǎn)難培養(yǎng),跟一個(gè)人的成長經(jīng)歷有關(guān),甚至要從娃娃抓起。
 
  我正在為MIT Press撰寫一本《城市計(jì)算》的英文專著,里面涉及了數(shù)據(jù)科學(xué)家需要掌握的各種技能,以及實(shí)戰(zhàn)案例。該書將作為美國該專業(yè)的本教材,預(yù)計(jì)年底出版,有興趣的朋友可以關(guān)注。”
 
  (原標(biāo)題:專訪微軟鄭宇:這個(gè)時(shí)代不缺數(shù)據(jù),缺得是不夠開放的思維)
(來源:大數(shù)據(jù)文摘)
上一頁  [1]  [2]

  • 凡本網(wǎng)注明"來源:智能制造網(wǎng)"的所有作品,版權(quán)均屬于智能制造網(wǎng),轉(zhuǎn)載請(qǐng)必須注明智能制造網(wǎng),http://www.caslcampaign.com。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
  • 本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品來源,并自負(fù)版權(quán)等法律責(zé)任。
  • 如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。








      關(guān)于我們|本站服務(wù)|會(huì)員服務(wù)|企業(yè)建站|旗下網(wǎng)站|友情鏈接| 興旺通| 產(chǎn)品分類瀏覽|產(chǎn)品sitemap

      智能制造網(wǎng) - 工業(yè)4.0時(shí)代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)

      Copyright gkzhan.comAll Rights Reserved法律顧問:浙江天冊律師事務(wù)所 賈熙明律師

      客服熱線:0571-87756395加盟熱線:0571-87759904媒體合作:0571-89719789

      客服部:編輯部:展會(huì)合作:市場部:

      聯(lián)系方式
      • 微信官方微信
      • 合作熱線0571-89719789
      • 聯(lián)系人:陳小姐

      關(guān)閉