
特征(zhēng)選擇和提取的基本任務是如何從許多特征中(zhōng)找出那些最有效的特征。研究如(rú)何把高維特征空間壓縮到低維特征空間以(yǐ)便(biàn)有效(xiào)設計分類器就成為一個重要的課題。任何識別過程的第一步,不論是用計算機還是由人去識別,都要首先分(fèn)析各種特征的有效性(xìng)並選出最(zuì)有(yǒu)代表性(xìng)的特征。
一般特征選擇從兩個方麵著手,一方麵是對單個特征進行評價和選擇,另一方麵就(jiù)是從大量的原(yuán)有特征出發(fā),通過降維(wéi)映射的方法,構造成少數的新特征。己經證明,如果成版人APP网站依次挑選出前M個最有效的單個特征,那麽這M個特征放在一起卻不(bú)一定是係統模式識別的M個特征的最佳組(zǔ)合。
為了考(kǎo)察某些特征對於係統模式識別的重要性,可以(yǐ)從係統識別特征中去掉一些特征,再來(lái)考察沒有了該特征,分類(lèi)會怎樣變化。如果去掉某些基(jī)本特征不影響成版人APP网站的分類和模式識別,則這些基本特征就是冗餘知識,可以去掉它;如果去掉某些基本特征將嚴重影響成版人APP网站的(de)分類和模式識別,則這些基本特征就是模式(shì)識別的有用特征,僅由這(zhè)些有用特征表達的模式就是一種(zhǒng)簡化(huà)的知識(shí)表達。特征形成:根據被(bèi)識別對象產生出一組基本特征,它可以是(shì)計算出來的(當被識別對(duì)象是波形或數字圖像時(shí)),也可(kě)以是用儀表或傳感(gǎn)器測量出來的(當(dāng)識別對象是實物或(huò)某(mǒu)種過程時),由此產生出(chū)來的特征叫做原始特征。
特(tè)征抽取的目的是獲取一組“少而精”的分類特征,即獲取特征數目少且(qiě)分類錯誤概率(lǜ)小的特征(zhēng)向量。
特征抽取常(cháng)常分幾步進行:
第一步:特征形成根(gēn)據被識別的對象產生一組原(yuán)始特征。可以是傳感器(qì)的直接測量值,也可以是將傳感器的測量值作某些計算後得到的值。
第二步(bù):特征選擇由特征形成(chéng)過(guò)程得到的原始特征可能很多,如果把所有(yǒu)的原始特征都(dōu)作為分類特征送往分類(lèi)器,不僅使得分類器(qì)複(fù)雜,分類計算判別量(liàng)大,而且分類器錯誤概率也不一定小。因此需要減少特征數目。減少特征數目的(de)方法有兩種,一(yī)種是特征選擇,另(lìng)一種是特征提取。從一組特(tè)征(zhēng)中挑選一些最有效(xiào)的特征的(de)過程(chéng)叫特征選擇。
第三步:特征提取特征(zhēng)提取是另一種減少特征數目的方法。通過映射(或變換(huàn))的方法把高維的特征向量變換為低維的特征向量。特征形成得到原始特征後,可(kě)以隻作特征選擇,也可以隻作特征提取,當然也可以(yǐ)先進行特征選擇再作特征提取(qǔ),可視具體情況而定。
特征提取和選擇並不是截然分開的。如可以先將原始特征空間映射(shè)到維數較低的空間,由這個空間中再進行選擇以進一步降低維數。也可以先經過選擇去掉那(nà)些明顯沒有分類信息的特征,再進行(háng)映射以降低維數。
特征選擇與提取的任務是求出一組對分類最有效的特征,因此需要一個定量(liàng)的準則(或稱判(pàn)據)來衡量特征對分類的有效性。具體地說,把一個高維空間變換為(wéi)低維空間(jiān)的(de)映射是很多的,哪(nǎ)種映射對分類最有利,需要一個(gè)比較標準。從D個原始特征中選擇出d個特征和各種可能組合也是很多的,哪種組合的分類(lèi)效(xiào)果最(zuì)好,也要有一個比較標準。目前己有的判別標準有(yǒu)類(lèi)別可分性準則、基於嫡函數的可分性準則、基於概率分布的可分性準則等。前兩種準則是直接從各類樣本間的距離算出的,沒有考慮各類的概率分布(bù),不(bú)能確切表明各類交疊的情況,因此(cǐ)與錯誤概率沒有直接聯係。常用的概率距離度量有:Bhattacharyya距離(lí)和散度。