Arabic Speaker Independent Continuous Automatic Speech Recognition Based on a

This  paper  describes  and  proposes  an  efficient  and  effective  framework  for  the  design  and  development  of  a  speaker-independent  continuous  automatic  Arabic  spe ech  recognition  system  based  on  a  phonetically  rich  and  balanced  speech  corpus.  The  speech  corpus  contains  a  total  o f  415  sentences  recorded  by  40  (20  male  and  20  fema le)  Arabic  native  speakers  from  11  different  Arab  countries  represent ing  the  three  major  regions  (Levant,  Gulf,  and  Africa)  in  the  Arab  world.  The  proposed  Arabic  speech  recognition  system  is  ba sed  on  the  Carnegie  Mellon  University  (CMU)  Sphinx  tools,  and  the  Cambridge HTK tools were also used at some testing  stages. The speech engine uses 3-emitting state Hidden Markov  Models  (HMM)  for  tri-phone  based  acoustic  models.  Based  on   experimental  analysis  of  about  7  hours  of  training  speech  data,  the  acoustic  model  is  best  using  continuous  observation ’s  probability  model  of  16  Gaussian  mixture  distributions  and  the  state  distributions  were  tied  to  500  senones.  The  languag e  model  contains  both  bi-grams  and  tri-grams.  For  s imilar  speakers  with  different sentences, the system obtained a word rec ognition accuracy of 92.67% and 93.88% and a Word E rror Rate (WER) of  11.27% and 10.07% with and without diacritical mark s, respectively. For different speakers with similar sentences, the system  obtained a  word recognition  accuracy of  95.92%  and  96.29%,  and a  WER of  5.78%,  and 5.45%  with and  with out  diacritical  marks,  respectively.  Whereas  different  speakers  and   different  sentences,  the  system  obtained  a  word  recognition  accuracy  of  89.08% and 90.23%, and a WER of 15.59% and 14.44% w ith and without diacritical marks, respectively.   

