計算機視覺算法與應用的一些測試數據集和源碼站點
《計算機視覺算法與應用的一些測試數據集和源碼站點》由會員分享,可在線閱讀,更多相關《計算機視覺算法與應用的一些測試數據集和源碼站點(12頁珍藏版)》請在裝配圖網上搜索。
1、以下是computer vision:algorithm and application計算機視覺算法與應用這本書中附錄里的關于計算機視覺的一些測試數據集和源碼站點,我整理了下,加了點中文注解。 Computer Vision: Algorithms and Applications Richard Szeliski 在本書的最好附錄中,我總結了一些對學生,教授和研究者有用的附加材料。這本書的網址包含了更新的數據集和軟件,請同樣訪問他。 C.1 數據集 一個關鍵就是用富有挑戰(zhàn)和典型的數據集來測試你算法的可靠性。當有背景或者他人的結果是可行的,這種測試可能甚至包含更多的信息(
2、和質量更好)。 經過這些年,大量的數據集已經被提出來用于測試和評估計算機視覺算法。許多這些數據集和軟件被編入了計算機視覺的主頁。一些更新的網址,像CVonline ( ), VisionBib.Com ( ), and Computer Vision online ( ), 有更多最新的數據集和軟件。 下面,我列出了一些用的最多的數據集,我將它們讓章節(jié)排列以便它們聯(lián)系更緊密。 第二章:圖像信息 CUReT: Columbia-Utrecht 反射率和紋理數據庫Re?ectance and Texture Database, (Dana, van Ginneken, Naya
3、r et al. 1999). Middlebury Color Datasets:不同攝像機拍攝的圖像,注冊后用于研究不同的攝像機怎么改變色域和彩色registered color images taken by different cameras to study how they transform gamuts and colors, Chakrabarti, Scharstein, and Zickler 2009). 第三章:圖像處理 Middlebury test datasets for evaluating MRF minimization/inference
4、 algorithms評估隱馬爾科夫隨機場最小化和推斷算法, (Szeliski, Zabih, Scharstein et al. 2008). 第四章:特征檢測和匹配 Af?ne Covariant Features database(反射協(xié)變的特征數據集) for evaluating feature detector and descriptor matching quality and repeatability(評估特征檢測和描述匹配的質量和定位精度), ~vgg/research/affine/ (Miko-lajczyk and Schmid 2005; M
5、ikolajczyk, Tuytelaars, Schmid et al. 2005). Database of matched image patches for learning (圖像斑塊匹配學習數據庫)and feature descriptor evaluation(特征描述評估數據庫), ~brown/patchdata/patchdata.html (Winder and Brown 2007; Hua,Brown, and Winder 2007). 第五章;分割 Berkeley Segmentation Dataset(分割數據庫) and Benchm
6、ark of 1000 images labeled by 30 humans,(30個人標記的1000副基準圖像)along with an evaluation, (Martin, Fowlkes, Tal et al. 2001). Weizmann segmentation evaluation database of 100 grayscale images with ground truth segmentations, ~vision/Seg Evaluation DB/index.html (Alpert, Galun, Basri et al. 2007).
7、 第八章:稠密運動估計 The Middlebury optic ?ow evaluation(光流評估) Web site, (Baker, Scharstein, Lewis et al. 2009). The Human-Assisted Motion Annotation database,(人類輔助運動數據庫) (Liu, Freeman, Adelson et al. 2008) 第十章:計算機攝像學 High Dynamic Range radiance(輻射)maps, (De-bevec and Malik 1997). Alph
8、a matting evaluation Web site, (Rhemann, Rother, Wang et al. 2009). 第十一章:Stereo correspondence立體對應 Middlebury Stereo Datasets and Evaluation, (Scharstein and Szeliski 2002). Stereo Classi?cation(立體分類) and Performance Evaluation(性能評估) of different aggregation(聚類) costs for stereo matching
9、(立體匹配), (Tombari, Mat- toccia, Di Stefano et al. 2008). Middlebury Multi-View Stereo Datasets, (Seitz,Curless, Diebel et al. 2006). Multi-view and Oxford Colleges building reconstructions, ~vgg/data/data-mview.html . Multi-View Stereo Datasets, (Strecha, Fransens, and Van Gool 2
10、006). Multi-View Evaluation, ~strecha/multiview/ (Strecha, von Hansen, Van Gool et al. 2008). 第十二章:3D重建 HumanEva: synchronized video(同步視頻) and motion capture (動作捕捉)dataset for evaluation of articulated human motion, Sigal, Balan, and Black 2010). 第十三章:圖像渲染 The (New) Stanford Light Fie
11、ld Archive, (Wilburn, Joshi,Vaish et al. 2005). Virtual Viewpoint Video: multi-viewpoint video with per-frame depth maps, (Zitnick, Kang, Uytten- daele et al. 2004). 第十四章:識別 查找一系列的視覺識別數據庫,在表14.1–14.2.除了那些,這里還有: Buffy pose classes, ~vgg/data/ buffy pose classes/ and Buffy stickmen
12、V2.1, ~vgg/data/stickmen/index.html (Ferrari,Marin- Jimenez, and Zisserman 2009; Eichner and Ferrari 2009). H3D database of pose/joint annotated photographs of humans, ~lbourdev/h3d/ (Bourdev and Malik 2009). Action Recognition Datasets, , has point- ers to several datasets for action a
13、nd activity recognition, as well as some papers.(有一些關于人活動和運動的數據庫和論文) The human action database at 包含更多的行動序列。 C.2 軟件資源 一個對于計算機視覺算法最好的資源就是開源視覺圖像庫(opencv)(),他有在intel的Gary Bradski和他的同事開發(fā),現(xiàn)在由Willow Garage (Bradsky and Kaehler 2008)維護和擴展。一部分可利用的函數在中: 圖像處理和變換 (濾波,形態(tài)學,金字塔); 圖像幾何學的變換 (旋轉,改變大小); 混合
14、圖像變換 (傅里葉變換,距離變換); 直方圖; 分割 (分水嶺, mean shift); 特征檢測 (Canny, Harris, Hough, MSER, SURF); 運動分析和物體分析 (Lucas–Kanade, mean shift); 相機矯正和3D重建 機器學習 (k nearest neighbors, 支持向量機, 決策樹, boost- ing, 隨機樹, expectation-maximization, 和神經網絡). Intel的Performance Primitives (IPP) library, ,包含 各種各樣的圖像處理任
15、務的最佳優(yōu)化代碼,許多opencv中的例子利用了這個庫,加入他安裝了,程序運行得更快。依據功能,他和Opencv有很多相同的運算處理,并且加上了額外的庫針對圖像視頻壓縮,信號語音處理和矩陣代數。 MTALAB中的Image Processing Toolbox圖像處理工具,,包含常規(guī)的處理,空域變換(旋轉,改變大?。R?guī)正交,圖像分析和統(tǒng)計學(變邊緣,哈弗變換),圖像增強(自適應直方圖均衡,中值濾波),圖像恢復(去模糊),線性濾波(卷積),圖像變換(傅里葉,離散余弦變換)和形態(tài)學操作(連通域和距離變換) 兩個比較舊的庫,它們沒有被發(fā)展,但是包含了一些的有用的常規(guī)操作: VXL
16、(C++ Libraries for Computer Vision Research and Implemen-tation, ) LTI-Lib 2 ( ). 圖像編輯和視圖包,例如Windows Live Photo Gallery, iPhoto, Picasa,GIMP, 和 IrfanView,它們對執(zhí)行這些處理非常有用:常規(guī)處理任務,格式轉換,觀測你的結果。它們同樣可以用于對圖像處理算法有趣的實現(xiàn)參考,例如色調調整和去噪。 這里他也有一些軟件包和基礎框架對你建一個實時視頻處理的DEMOS很有用,Vision on Tap( )提供一個可以實時處理你的網絡攝像頭的
17、網頁服務(Chiu and Raskar 2009)。Video-Man (VideoManager, 處理實時的基于視頻的DEMOS和應用非常有用,你也可以用MATLAB中的imread直接從任何URl(例如網絡攝像頭)中讀取視頻。 下面,我列出了一些額外的網絡資源,讓章節(jié)排列以便它們看起來聯(lián)系更緊密: 第三章:圖像處理 matlabPyrTools—MATLAB 下的源碼對于拉普拉斯變換,金字塔, QMF/小波, 和 steerable pyramids, ~lcv/software.php (Simoncelli and Adel- son 1990a; Simoncel
18、li, Freeman, Adelson et al. 1992). BLS-GSM 圖像去噪, ~javier/denoise/ (Portilla, Strela,Wain- wright et al. 2003). Fast bilateral ?ltering code(快速雙邊濾波), (Chen, Paris, and Durand 2007). C++ implementation of the fast distance transform algorithm, ~pff/dt/ (Felzenszwalb and Huttenlocher 2004
19、a). GREYC’s Magic Image Converter, including image restoration software using regularization and anisotropic diffusion, (Tschumperl′ e and Deriche 2005). 第四章:圖像特征檢測和匹配 VLFeat, 一個開放便捷的計算機視覺算法庫 (Vedaldi and Fulkerson 2008). SiftGPU: A GPU Implementation of Scale Invariant Feature Transf
20、orm (SIFT), GPU實現(xiàn)的尺度特征性變換 ~ccwu/siftgpu/ (Wu 2010). SURF: Speeded Up Robust Features, ~surf/ (Bay, Tuyte-laars, and Van Gool 2006). FAST corner detection, ~er258/work/fast.html (Rosten and Drum-mond 2005, 2006). Linux binaries for af?ne region detectors and descriptors, as well as M
21、ATLAB ?les to compute repeatability and matching scores, ~vgg/research/affine/ Kanade–Lucas–Tomasi feature trackers: KLT, ~stb/klt/ (Shi and Tomasi 1994); GPU-KLT, ~cmzach/opensource.html (Zach,Gallup, and Frahm 2008); Lucas–Kanade 20 Years On, (Baker and Matthews 2004). 第五章:分割 高效的基于圖形的
22、分割~pff/segment (Felzenszwalb and Huttenlocher 2004b). EDISON, 邊緣檢測和圖像追蹤, (Meer and Georgescu 2001; Comaniciu and Meer 2002). Normalized cuts segmentation including intervening contours, ~jshi/software/ (Shi and Malik 2000; Malik, Belongie, Leung et al. 2001). Segmentation by we
23、ighted aggregation (SWA),利用加權集合的分割 ~vision/SWA (Alpert, Galun, Basri et al. 2007). 第六章:基于特征的對齊和校準 Non-iterative PnP algorithm,(非迭代PnP算法) (Moreno-Noguer, Lep-etit, and Fua 2007). Tsai Camera Calibration(相機矯正) Software, ~rgw/TsaiCode.html (Tsai 1987). Easy Camera Calibration Toolkit,
24、(簡易相機校準工具包) Calib/ (Zhang 2000). Camera Calibration Toolbox for MATLAB, ; a C version is included in OpenCV. MATLAB functions for multiple view geometry, ~vgg/hzbook/code/ (Hartley and Zisserman 2004). 第七章:運動重建 SBA: A generic sparse bundle(稀疏束) adjustment C/C++ package based on the
25、Levenberg– Marquardt algorithm, ~lourakis/sba/ (Lourakis and Argyros 2009). Simple sparse bundle adjustment (SSBA), ~cmzach/opensource.html . Bundler, structure from motion for unordered image collections(無序圖像集), (Snavely, Seitz, and Szeliski 2006). 第八章:稠密運動估計 光流, ~black/code.html (
26、Black and Anan- dan 1996). Optical ?ow(光流) using total variation(全變量差) and conjugate gradient descent(共軛梯度下降), (Liu 2009). TV-L1 optical ?ow on the GPU, ~cmzach/opensource.html (Zach,Pock, and Bischof 2007a). elastix: a toolbox for rigid(剛性) and nonrigid(非剛性) registration of images(配準圖
27、像), (Klein, Staring, and Pluim 2007). Deformable image registration(可變形的配準圖像) using discrete optimization(離散最優(yōu)化), (Glocker, Komodakis, Tziritas et al. 2008). 第九章:圖像縫合 Microsoft Research Image Compositing Editor for stitching images,(圖像拼接,圖像合成) . 第十章:計算機攝影學 HDRShop software for com
28、bining bracketed exposures(包圍式曝光) into high-dynamic range radiance images, . Super-resolution(超分辨率) code, ~vgg/software/SR/ (Pickup 2007;Pickup, Capel, Roberts et al. 2007, 2009). 第十一章:立體對應 StereoMatcher, standalone C++ stereo matching code, (Scharstein and Szeliski 2002). Patch-bas
29、ed multi-view stereo software (PMVS Version 2), (Furukawa and Ponce 2011). 第十二章:3D重建 Scanalyze: a system for aligning and merging range data, (Curless and Levoy 1996). MeshLab: software for processing, editing, and visualizing unstructured 3D triangular meshes, . VRML viewers (var
30、ious) are also a good way to visualize texture-mapped 3D models. 節(jié) 12.6.4: Whole body modeling and tracking(全身建模和追蹤) Bayesian 3D person tracking(貝葉斯3D人體追蹤), ~black/code.html (Sidenbladh,Black, and Fleet 2000; Sidenbladh and Black 2003). HumanEva: baseline code for the tracking of articulat
31、ed human motion, (Sigal, Balan, and Black 2010). 節(jié) 14.1.1: Face detection(人臉檢測) Sample face detection code and evaluation tools, . 節(jié) 14.1.2: Pedestrian detection(行人追蹤) A simple object detector with boosting, (Hastie, Tibshirani, and Friedman 2001; Torralba, Murphy, and Freeman
32、 2007). Discriminatively(有區(qū)別) trained deformable(可變形) part models, ~pff/latent/ (Felzenszwalb, Girshick, McAllester et al. 2010). Upper-body detector(上身檢測), ~vgg/software/UpperBody/ (Ferrari,Marin-Jimenez, and Zisserman 2008). 2D articulated human pose estimation software, ~calvin/art
33、iculated_human_pose_estimation_code/ (Eichner and Ferrari 2009). 節(jié) 14.2.2: Active appearance and 3D shape models AAMtools: An active appearance modeling toolbox, (Papandreou and Maragos 2008). 節(jié) 14.3: Instance recognition FASTANN and FASTCLUSTER for approximate k-means (AKM), ~vgg
34、/software/ (Philbin, Chum, Isard et al. 2007). Feature matching using fast approximate nearest neighbors, ~mariusm/index.php/FLANN/FLANN (Muja and Lowe 2009). 節(jié) 14.4.1: Bag of words(詞袋) Two bag of words classi?ers, (Fei-Fei and Perona 2005; Sivic, Russell, Efros et al. 2005). Bag
35、 of features and hierarchical(分層) k-means, (Nist′ er and Stew′ enius2006; Nowak, Jurie, and Triggs 2006). 節(jié) 14.4.2: Part-based models A simple parts and structure object detector, (Fischler and Elschlager 1973; Felzenszwalb and Huttenlocher 2005). 節(jié) 14.5.1: Machine learning software
36、 Support vector machines (SVM) software ( ) 包含很多支持向量機的庫, SVMlight ; LIBSVM, ~cjlin/libsvm/ (Fan, Chen,and Lin 2005); LIBLINEAR, ~cjlin/liblinear/ (Fan,Chang, Hsieh et al. 2008). Kernel Machines: links to SVM, Gaussian processes, boosting, and other machine learning algorithms, .
37、 Multiple kernels for image classi?cation, ~vgg/software/MKL (Varma and Ray 2007; Vedaldi, Gulshan, Varma et al. 2009). 附錄 A.1–A.2: Matrix decompositions(矩陣分解) and linear least squares(線性最小乘) BLAS (Basic Linear Algebra Subprograms基本線性代數子程序), (Blackford,Demmel, Dongarra et al. 2002)
38、. LAPACK (Linear Algebra(線性代數) PACKage), (Anderson, Bai,Bischof et al. 1999). GotoBLAS, . ATLAS (Automatically Tuned Linear Algebra Software), (Demmel, Dongarra, Eijkhout et al. 2005). Intel Math Kernel Library (MKL), . AMD CoreMath Library (ACML), . Robust PCA code(魯棒主成
39、分分析), ~ftorre/papers/rpca2.html (De la Torre and Black 2003). Appendix A.3: Non-linear least squares非線性最小二乘 MINPACK, . levmar: Levenberg–Marquardt nonlinear least squares algorithms, 非線性最小二乘 ~lourakis/levmar/ (Madsen, Nielsen, and Tingleff 2004). 附錄 A.4–A.5: Direct(直接) and iterativ
40、e(迭代) sparse matrix(稀疏矩陣) solvers SuiteSparse (various reordering algorithms, 各種各樣的重排算法CHOLMOD) and SuiteSparse QR, (Davis 2006, 2008). PARDISO (iterative and sparse direct solution), . TAUCS (sparse direct, iterative, out of core, preconditioners), ~stoledo/taucs/ . HSL Mathematica
41、l Software Library, . Templates for the solution of linear systems(線性系統(tǒng)解決問題的模板), (Barrett, Berry, Chan et al. 1994). Download the PDF for instructions(說明) on how to get the software. ITSOL,MIQR, and other sparse solvers, ~saad/software/ (Saad 2003). ILUPACK, ~bolle/ilupack/ . 附錄 B
42、: Bayesian modeling and inference(貝葉斯建模和推斷) Middlebury source code for MRF minimization(隱馬爾科夫隨機場最小化), (Szeliski, Zabih, Scharstein et al. 2008). C++ code for ef?cient belief propagation for early vision, ~pff/bp/ (Felzenszwalb and Huttenlocher 2006). FastPD MRF optimization(最優(yōu)化) code,
43、 ~komod/FastPD (Komodakisand Tziritas 2007a; Komodakis, Tziritas, and Paragios 2008) 算法 C.1 C algorithm for Gaussian random noise generation, using the Box–Muller transform. C描述的利用Box–Muller 變換產生高斯隨機噪聲 double urand() { return ((double) rand()) / ((double) RAND MAX); } void grand(doubl
44、e& g1, double& g2) { #ifndef M_PI #define M_PI 3. #endif // M_PI double n1 = urand(); double n2 = urand(); double x1 = n1 + (n1 == 0); /* guard against log(0) */ double sqlogn1 = sqrt(-2.0 * log (x1)); double angl = (2.0 * M PI) * n2; g1 = sqlogn1 * cos(angl); g2 = sqlogn1 * sin(angl); }
45、 高斯噪聲的產生。許多基本的軟件包產生一些不同的隨機的噪聲(例如 運行在unix上的rand()),但是并不是所有的都有高斯隨機噪聲發(fā)生器。計算一個離散隨機常量,你可以用Box–Muller transform (Box and Muller 1958),他的c代碼在算法C.1中給出了,注意這個運行結果是返回一對隨機變量。相關的產生高斯隨機變量的方由Thomas, Luk, Leong et al. (2007)提出。 偽彩色產生。在很多應用中,很方便給圖像加上標記(或者給圖像特征比如線)。一個最簡單的方式就是給不同的標記不同的顏色。在我的工作中,我發(fā)現(xiàn)用RGB立體色彩系給不
46、同的標記賦予標準均勻的色彩是很方便的。 對于每一個(非消極)標記值,consider the bits as being split among the three color channel,例如對于一個比特值為9的值, 這個值可以被標記為RGBRGBRGB,獲得三基色中的每一種顏色值后,顛倒比特值,結果是低位的比特值變化的最快。 實際上,對于一個八比特的顏色通道,這個比特值的顛倒可以被存在一個表或者一個存儲提前計算好的記錄有由標記值向偽彩色的改變的完整表。 圖 8.16 顯示了這樣一個偽彩色繪制的例子. GPU實現(xiàn) GPU的出現(xiàn),可以處理像素著色和計算著色,導致了實時應
47、用的快速計算機視覺算法的發(fā)展,例如,分割,追蹤,立體和運動估計((Pock, Unger, Cremerset al. 2008; Vineet and Narayanan 2008; Zach, Gallup, and Frahm 2008)。一個好的資源來學習這些算法就是CVPR 2008 上關于Visual Computer Visionon GPUs的workshop。 ~jmf/Workshop_on_Computer_Vision_on_GPU.html 他的論文可以在CVPR 2008的會議集的DVD中找到。額外的關于GPU算法資源包括GPGPU網址和小組討論 還有OpenVI
48、DIA Web site, C.3 PPT和講稿 正如我在前言中提到的,我希望提供和書中材料相一致的PPT,直到這些全部準備好,你最好的方式去看我在華盛頓大學上課時的PPT,和一寫相關課程中用到的教案。 這里是一些這樣的課程列表: UW 455: Undergraduate Computer Vision, . UW576: Graduate Computer Vision, . Stanford CS233B: Introduction to Computer Vision, . MIT 6.869: Advances in Compute
49、r Vision, . Berkeley CS 280: Computer Vision, ~trevor/CS280.html UNC COMP 776: Computer Vision, ~lazebnik/spring10 . Middlebury CS 453: Computer Vision, ~schar/courses/cs453-s10/ . Related courses have also been taught on the topic of Computational Photography, e.g., CMU 15-463:
50、 Computational Photography, . MIT 6.815/6.865: Advanced Computational Photography, Stanford CS 448A: Computational photography on cell phones, . SIGGRAPH courses on Computational Photography, ~raskar/photo/ . 這里還有一些最好的關于各種計算機視覺主題的在線講稿,例如:belief propagation and graph cuts,它們在UW-MSR Course of Vision Algo-rithms C.4 參考文獻: 這本的所有參考文獻在這本書的網站上,一個幾乎所有的計算機視覺的出版物都引用的更全面的部分注解書目由Keith Price維 . 這里還有一個可搜索的計算機圖形學的參考書目 另外技術論文比較好的資源是Google Scholar 和 CiteSeerX。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 110中國人民警察節(jié)(筑牢忠誠警魂感受別樣警彩)
- 2025正字當頭廉字入心爭當公安隊伍鐵軍
- XX國企干部警示教育片觀后感筑牢信仰之基堅守廉潔底線
- 2025做擔當時代大任的中國青年PPT青年思想教育微黨課
- 2025新年工作部署會圍繞六個干字提要求
- XX地區(qū)中小學期末考試經驗總結(認真復習輕松應考)
- 支部書記上黨課筑牢清廉信念為高質量發(fā)展營造風清氣正的環(huán)境
- 冬季消防安全知識培訓冬季用電防火安全
- 2025加強政治引領(政治引領是現(xiàn)代政黨的重要功能)
- 主播直播培訓直播技巧與方法
- 2025六廉六進持續(xù)涵養(yǎng)良好政治生態(tài)
- 員工職業(yè)生涯規(guī)劃方案制定個人職業(yè)生涯規(guī)劃
- 2024年XX地區(qū)黨建引領鄉(xiāng)村振興工作總結
- XX中小學期末考試經驗總結(認真復習輕松應考)
- 幼兒園期末家長會長長的路慢慢地走