2010년 6월 9일 수요일

6/10(목) 수업

음성 수업..

지난번에 이어서 계속

 

 

Hidden Markov Models  리뷰

확률적으로 추론하는데 많이사용  날씨, 증권, 주식등에 사용

시간적으로 변화하는 패턴에 적절하다.  음성인식도 시간적 변화이므로 적당하다.

음성인식에서 사용할수 잇도록 3가지를 가정한다.

체인 : 바로 이전시간까지만 본다 1차 마코브모델

모든 출력확률이 직교 관게 (오소고날)

 

Q : states 상태   T(타임)과 다르다.

마코브로 만들수 있는 상태 가지수 

A : 전이확률  <-- 학습을 해야 나온다.  처음에는 랜덤 값으로 훈련을 시킨다.  가장 높은 확률 값이 나올때까지 계속하는것( 훈련 tranning)  이것도 훈련을 해야 나온다.

관측열 : symbol화를 한다. VQ를 이용해서

B : 출력확률 훈력을 해야나온다.  (output)

특수상태 스타트 파이날

 

Bakis network

주로 음성인식에서 사용  left to right  왼쪽에서 오른쪽으로 간다.  과거로는 안간다. 그래서 음성에서

뒤로는 못간다. 앞으로만 간다.

Ergodic은 잘안써

 

 

훈련을 해야 나온다.  A, B

출력에 나오는 것을 hidden state 라고 한다.  <--

output  확률과 전이 확률을 알수 있다.

 

셤..

 

셤.. 3가지 ( ev, de, ..)

 

problem1 : likelihood  계산하기?   람다(에이, 비, 파이)

오래하면 확률값이 작아지므로  threshold값으로 끝내야한다.

 

Forwoard algorithm(중요하다.)  비터비<--

t순간에 존재하는  전체 확률

이전 상태에서 올수있는 모든 확률을 곱한다.

 

 

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

기말고사.. 배운것들.. 

1. DTW 손으로 계산

2. VQ Kmeans 알고리즘 설명? 플로우챠트?

3. HMM 확률(likelihood. 계산 하는것  전이 확률 곱하기 출력 확률)

 

총 8문제 정도 출제 했음. 나머지는 보면 풀수 있음. 

시험 인식 -> VQ, HMM, DTW 에서 나옴

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

 

 

forward , 백워드, 비터비 알고리즘 -> 훈련   반복해서 확률값을 만들어 낸다.

전이확률과 출력 확률을 만들기 위해 학습을 한다.  같은 어휘의 다른패턴을 가지고서

발성속도와 음성 톤(높고 낮고)의 차이가 있다.

 

코드 부분 : 확률이 제일 커질때까 반복..

HMM의 파라미터인 람다를 최대로

 

포워드 알고리즘

알 티 오브 제이 . 제일큰걸찾아 - 수식중에서

 

 

Viterbi(비터비)

이동가능한 모든 패스에 대한 확률값을 계산한다.

A, B, 코드 워드를 이용해서 계산 가장 큰값이 출력값으로 나간다

DTW처럼 주대각 방향으로 이동하게 된다?  값이 가장 큰 곳을 찾아간다.(DTW와의 차이점)

 

Lexicon 테이블을 이용?

 

Evaluation 문제 (셤)

변동폭이 큰음성을 정규화 하는 것(학습)

 

코드와 수식을 매칭 시켜가면서 공부하세요~

 

음성인식 쉬운게 아님~ ㅋ

 

 

 

 

2010년 6월 4일 금요일

6월 5일(보강)

이런. ㅋㅋ

첨부 파일 보고 공부해!!

 

(Hidden Markov Model for Speech Recognition)
s 위 강의 자료에 대해서 필기??
과거의 사건을 이용해서 다음 상황을 예측하는 것!   확률공간은 정해져있다.
 
프레임블락킹 1/2사이즈로 오버랩핑  우리는 가우시안 안쓰고 VQ로
확률이니까 큰값쪽으로 가면 된다.
 
음성인식기의 학습환경과 인식환경이 같으면 인식률 커진다. 다르면 작아진다.
예로 백그라운드 노이즈가 있다.
발화특성이 달라도 인식하기 어렵다. 말과 말이 섞일때 인식이 어렵다.  <-(인식이 잘 안되는 3가지 이유)  사람의 경우에는 이럴때 예측을 한다.
이러한 아이디어를 이용한것이 HMM
 
acoustic O <- 우리입장에서는 프레임  VQ를 거치고 나면 code word (symbol)
관측심벌을 word에 맵핑시킨다.  word는 이미 알고 있는 것
 
미리 만들어 놓은 확률테이블에서 ?? 찾아??
 
argmaxP(O|W)P(W)   W;선행확률(이미알고 있는것)
         n 프래임 n-1프레임
        출력확률(출력된 확률이 얼마인지)
 
P(O|W) word중에 관측심벌
디코딩 서치 : 가장큰 값을 출력?
Lexcion - 발음사전
Language Model - 문법적인 규칙으로 찾는다.
 
S1 반복되는지  짧은 '아'와 길게 발음한 '아'
 
같지않다.  그래서 음소별로 자를 수 있다.
 
하나의 음소도 3개의 상태로 구분할수 잇다.  시작 중간 끝
 
HMM은 가중치가 있는 유한상태 오토메이션의 하나이다.
A 전위확률매트릭스   A는 모든 가능한 경로에 대한 확률
확률이값이 바귄다.(트레이닝)
q0qend 는 스페셜케이스 시작과 끝은 무조건 있으므로
HMM를 위한 전제 조건이 있어야 한다. P(qi|q1...qi-1) = P(qi|qi-1)
음성은 모든 걸을 보지고않고 바로 전 상태만 보면 된다. HMM체인은 여러개가 있을수 있지만 바로 이전상태와 현재상태만을 보고 ?? 결정??
바로현재상태에만의존   
  1차 HMM 모델
 
 
전위확률..
 
인니셜 상태? 1로 본다.
 
전위확률을 미리계산해놓은 것(트레이닝)
 
 
출력 독립 가정
 
다음 주 수업에서 계속~~