為了賬號安全,請及時綁定郵箱和手機立即綁定

Flink任務總是down?你選對了State Backends嗎? 原創

上篇《Flink-demo速成與常見算子》我們提到,Flink的checkpoint機制可以保證exactly-once特性,讓Flink流計算結果具備可信賴性,checkpoint會異步保存遇到檢查點時當時數據流記錄的位置以及算子的中間狀態,在Flink任務發生故障時,可以從最新保存成功的checkpoint恢復任務。看似很健壯的機制,但為什么有時候運行好好的Flink任務,總是會自己重啟呢?盡管有checkpoint保證exactly-once,但對于實時性要求高的業務場景,每次重啟所消耗的時間都可能會導致業務不可用。也許你也經常遇到這樣的情況

1704瀏覽
0推薦
0評論

Flink-demo速成與常見算子 原創

1、一個flink任務的不同狀態 我們先來簡單看下,一個flink任務從創建到消亡會經歷哪些狀態。在啟動一個Flink job的時候,可以從控制臺看到job和task的多個狀態的切換 Flink job的狀態變化 在執行ExecutionMap期間,每個并行任務經歷多個階段,從創建到完成或失敗。 2、一個簡單的flink任務 //1. 構建執行環境 final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //2. 定義數據源(source),這里使用監聽9000端口的socket消息,通常

5772瀏覽
1推薦
0評論

如何快速寫一個sklearn LabelEncoder? 原創

在傳統機器學習中,對于類別型特征有許多encode方法:其中,Label Encoder是最簡單的一種encode方法,并在sklearn.preprocessing中有實現方法,目的是將類別型特征統一轉化成0-len(類別性特征)范圍的數字。既然只是對去重后的類別型特征進行某種方式的標序號,那么我們自己實現一個labelEncoder會不會比sklearn的要更快呢?數據(test_data)test_data.shape(65022441,...

2716瀏覽
0推薦
0評論

Spark 數據傾斜調優 原創

一、what is a shuffle? 1.1 shuffle簡介 一個stage執行完后,下一個stage開始執行的每個task會從上一個stage執行的task所在的節點,通過網絡傳輸獲取task需要處理的所有key,然后每個task對相同的key進行算子操作,這個過程就是shuffle過程。 我們常說的shuffle過程之所以慢是因為有大量的磁盤IO以及網絡傳輸操作。spark中負責shuffle的組件主要是ShuffleManager,在spark1.1之前采用的都是HashShuffleManager,在1.1之后開始引入效果更優SortShuffleManager,并在1.2開始默認使用SortSh

1871瀏覽
1推薦
1評論

Spark調優基礎與經驗 原創

一、當一個spark任務submit到yarn集群需要經過有幾步? 在《spark必知必會的基本概念》解釋了yarn集群的運行過程,理解了Resource Manager、Node Manager、Application master這些基本概念,并且它們之間是如何通信的。那么當一個spark任務submit到yarn集群需要經過有幾步? 1.1 在client使用spark-submit提交一個spark任務后 首先,每個任務會對應啟動一個Driver進程 然后,Driver進程為spark任務申請資源:向集群管理器Resource Manager申請運行Spark作業需要使用的資源,主要的資源

2091瀏覽
1推薦
0評論

一百頁的《Flink基礎教程》能教會我們什么? 原創

前言 What is Apache Flink? Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale. ----Apache 官網 Flink概念...

4483瀏覽
2推薦
0評論

spark調優基礎-spark ui初探 原創

spark web ui getting started : https://mapr.com/blog/getting-started-spark-web-ui/ 當一個Spark Application運行起來后,可以通過訪問hostname:4040端口來訪問UI界面。hostname是提交任務的Spark客戶端ip地址,端口號由參數spark.ui.port(默認值4040,如果被占用則順序往后探查)來確定。由于啟動一個Application就會生成一個對應的UI界面,所以如果啟動時默認的4040端口號被占用,則嘗試4041端口,如果還是被占用則嘗試4042,一直找到一個可用端口號為止。 1 job頁面 這里包含了

3489瀏覽
3推薦
0評論

spark必知必會的基本概念 原創

首先我們從宏觀的視角來窺視下大數據技術框架: 圖1 大數據技術框架 從圖1可以看出,數據源-數據收集-數據存儲-資源管理,這是我們進行數據分析和處理的基本;圖中的計算框架包括批處理、交互式分析和流處理: 批處理計算:對時間沒有嚴格要求,吞吐率要高 交互式計算:支持類SQL語言,快速進行數據分析 流式計算:數據像流水一樣進入系統,需實時對其處理和分析 不同的計算框架的實時性要求是逐漸增強的,spark在整個大數據技術框架中屬于第4層計算框架,spark能很好地滿足這三種計算要

1336瀏覽
3推薦
0評論

那些年我們為之瘋狂的注解 原創

1 @RestController 導入: import org.springframework.web.bind.annotation.RestController; 官方文檔解釋: @RestController is a stereotype annotation that combines @ResponseBody and @Controller. 可以看出,@RestController = @ResponseBody + @Controller,也就是說如果使用了@RestController來注解Controller,那么表示這個Controller中的方法只能返回你封裝好的result...

1573瀏覽
5推薦
0評論

性能對比:collections.sort vs treeSet sort vs java8 stream.sorted 原創

0 寫在前面的話 在項目中有一個排序問題,考慮到未來需要排序的數據量可能很大,想用一個性能較好的排序算法,現在有三套解決方法:jdk提供的集合的sort方法(Collections.sort)、一個可排序的數據結構TreeSet、Java8中流的排序(stream.sorted)。 我們都知道,TreeSet的底層是用紅黑樹實現的,它在調用集合上的add方法時,會始終保持集合中的數據排序,而Collection s.Sort()方法則會對整個集合數據進行排序,其底層有兩種sort方法:legacyMergeSort(一種老的歸并排序,默認是不使用,在

3890瀏覽
0推薦
0評論

Linux基礎與應用 原創

1、Linux基礎 使用man,info來了解命令使用 1.1 文件管理 ls ls -a 可顯示當前目錄下包含隱藏文件的所有文件 ls -l 可看到文件更多的信息,包含:所有權限-文件所有者-文件所屬組-文件或文件夾的大小-文件的最后修改時間-文件名 ls -lh 和ls -l相似,但對顯示文件或文件夾的大小更加友好(以k為單位) ls -lsrth 按修改時間進行排序顯示當前目錄下的文件 cd cd進入指定目錄,pwd顯示當前目錄路徑 cd - 回到上一次的目錄 cp cp {被復制的文件} {復制的文件} cp -r {

1166瀏覽
1推薦
0評論

Python數據分析工具庫-pandas 數據分析與探索工具(二) 原創

2、pandas基本函數 >>> df one two three a -1.101558 1.124472 NaN b -0.177289 2.487104 -0.634293 c 0.462215 -0.486066 1.931194 d NaN -0.456288 -1.222918 pandas包含豐富的函數來對數據進行統計分析。 mean函數 >>> df.mean(0) #對DataFrame的每列求平均數,axis=0 one -0.272211 two 0.667306 three 0.024661 dtype: float64 >>> df.mean(1)...

1772瀏覽
0推薦
0評論

Python數據分析工具庫-pandas 數據分析與探索工具(一) 原創

pandas是基于numpy的一個高級數據結構和操作的數據分析與探索工具,本文基于pandas API文檔對pandas的兩個重要的數據結構、基本函數、函數應用、排序以及層次化索引進行分析,對于本文的示例代碼做如下約定: import numpy as np from pandas import Series, DataFrame import pandas as pd 1、pandas 數據結構 1.1 Series Series是一種類似于一維數組的對象,它的索引由參數index指定,創建一個Series的語法如下: s = Series(data, index=index) data的類型可以是:Py

2376瀏覽
4推薦
0評論

Python數據分析工具庫-Scipy 矩陣支持庫 原創

SciPy函數庫在NumPy庫的基礎上增加了眾多的數學、科學以及工程計算中常用的庫函數。例如線性代數、常微分方程數值求解、信號處理、圖像處理、稀疏矩陣等等。可以進行插值處理、信號濾波以及用C語言加速計算。 1、積分(scipy.integrate) scipy.integrate.quad 計算定積分 scipy.integrate.quad(func, a, b, args=(), full_output=0, epsabs=1.49e-08, epsrel=1.49e-08, limit=50, points=None, weight=None, wvar=None, wopts=None, maxp1=50,...

6656瀏覽
6推薦
0評論

Python數據分析工具庫-Numpy 數組支持庫(二)

1 shape變化及轉置 >>> a = np.floor(10*np.random.random((3,4))) >>> a array([[ 2., 8., 0., 6.], [ 4., 5., 1., 1.], [ 8., 9., 3., 6.]]) >>> a.shape (3, 4) >>> a.ravel() # 轉化為一維數組 array([ 2., 8., 0., 6., 4., 5., 1., 1., 8., 9., 3., 6.]) >>> a.reshape(6,2) # 將數組a轉化為指定shape的數組...

1723瀏覽
0推薦
0評論

Python數據分析工具庫-Numpy 數組支持庫(一) 原創

1 Numpy數組 在Python中有類似數組功能的數據結構,比如list,但在數據量大時,list的運行速度便不盡如意,Numpy(Numerical Python)提供了真正的數組功能,以及對數據進行快速處理的函數,Numpy中內置函數處理數據的速度是C語言級別的。Numpy支持高級大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫。Numpy中的ndarray類提供了python對多維數組對象的支持,并具備對矢量進行運算的能力,運算更為快速且節省空間。 ndarray是N維數組對象(矩陣),其中所有的元素都必須

2332瀏覽
2推薦
0評論

Python函數式編程中map()、reduce()和filter()函數的用法 原創

Python中map()、reduce()和filter()三個函數均是應用于序列的內置函數,分別對序列進行遍歷、遞歸計算以及過濾操作。這三個內置函數在實際使用過程中常常和“行內函數”lambda函數聯合使用,我們首先介紹下lambda函數。 1、lambda函數 lambda函數的Python3.x API文檔 lambda An anonymous inline function consisting of a single expression which is evaluated when the function is called. The syntax to create a lambda...

2891瀏覽
5推薦
0評論

深度學習技術在機器閱讀理解應用的研究進展

0 前言 前幾篇博文主要是介紹傳統機器學習方法在問答系統或其主要分支:機器閱讀理解上的研究與應用,在之前介紹的大規模機器閱讀理解數據集的基礎上,我們來分析下深度學習方法在機器閱讀理解領域的研究進展,這里我們主要是在張俊林的《深度學習解決機器閱讀理解任務的研究進展》的基礎上,整理了深度學習技術在機器閱讀理解應用的研究進展。 1 機器閱讀理解 閱讀理解,相信中國學生都不陌生,不管是語文考試還是英語考試,閱讀理解是非常常規的考試內容,一般形式就是給出一篇文章,然后

7876瀏覽
3推薦
0評論

機器閱讀理解Attention-over-Attention模型 原創

0 前言 Attention-over-Attention模型(AOA Reader模型)是科大訊飛和哈工大在2017ACL會議上的《Attention-over-Attention Neural Networks for Reading Comprehension》(論文地址)聯合提出的。科大訊飛和哈工大在2016ACL會議上發表的另一篇論文《Consensus Attention-based Neural Networks for Chinese Reading Comprehension》提出了CAS Reader模型(在博文《HFL-RC:科大訊飛填空式機器閱讀理解數據集》有詳細介紹),AOA...

4480瀏覽
1推薦
2評論

機器閱讀理解模型Stanford Attentive Reader源碼解析 原創

0 前言 Stanford Attentive Reader是斯坦福在2016年的ACL會議上的《A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task》(論文地址,GitHub源碼,代碼要求Python 2.7,Theano >= 0.7,深度學習框架Lasagne 0.2.dev1,代碼整體風格非常簡潔易懂)發布的一個機器閱讀理解模型。我們對Stanford Attentive Reader模型的源碼進行了解析,力求通過分析其源碼來深入研究一個機器閱讀理解模型是如何工作的。 采用的數據集有兩個:CNN和Daily Mail,下載地

3118瀏覽
5推薦
2評論
首頁上一頁1234下一頁尾頁
意見反饋 幫助中心 APP下載
官方微信
lpl竞猜