
براي تبادل لينک ابتدا لينک مارو بانام:مهندسی نرم افزار ورودی 86 - سيستم تشخيص گفتار در
وبلاگ ياسايتتان قراردهيد ،
سپس از طریق فرم نظرات به ما خبر دهيد تاما هم اين کار رو براي شما بکنيم.
آبان 1388
مهر 1388
شهریور 1388
مرداد 1388
تیر 1388
خرداد 1388
اردیبهشت 1388
فروردین 1388
اسفند 1387
بهمن 1387
دی 1387
آذر 1387
آبان 1387
مهر 1387
شهریور 1387
مرداد 1387
تیر 1387
با بانك خود تماس میگيريد. صدای يك نوار را میشنويد: « برای اطلاع از ميزان پول در حساب كليد 1، برای تغيير رمز كليد 2 و ...» شما هم از اين كه میتوانيد از فناوری روز استفاده كنيد خوشحال میشويد و اطلاعات مورد نظر را كسب میكنيد؛ اما آيا میدانيد كه در بعضی كشورهای ديگر برای ارتباطات اين چنينی از فشردن دكمههای تلفن استفاده نمیكنند؟
در اين كشورها افراد حتی زحمت چنين كاری را به خود نمیدهند بلكه به راحتی منظور خود را میگويند و سيستم كار را انجام میدهند. در واقع با استفاده از سيستم تشخيص گفتار يا Speech Recognition اين اتفاق روی میدهد. لابد میگوييد اين موضوع تازهای نيست و مدتهاست كه اين حرفها زده میشود. حق با شماست. بيش از يك دهه است كه محققان سعی میكنند تا صوت را به عنوان يك ورودی رايانه تعريف كنند. حالا به نظر میرسد اين تحقيقات به نتايج خوبی رسيدهاند.
طی اين سالها تلاش زيادی روی تشخيص گفتار صوت صورت گرفت. اما با توجه به عوامل زيادی كه در اين الگوريتم موثر هستند، همواره عمليات تشخيص با خطا روبه رو بوده است. تارهای صوتی انسان خصوصياتی غير خطی دارند و از طرف ديگر عمليات آنها كاملا در اختيار نيست، بلكه عوامل مختلفی از جنسيت تا حالت عاطفی فرد در آن تاثيرگذار است. در نتيجه تلفظ صوتی میتواند به لهجه، طرز تلفظ، طرز گفتار و ميزان شمرده بودن آن، درشتی صدا، تودماغی حرف زدن، زير و بمی صدا، درجه صدا (بلندی) و سرعت ادای كلمات بستگی داشته باشد. علاوه بر اينها از آنجا كه معمولا افراد در محيطی صحبت میكنند كه صداهای محيطی نيز وجود دارد، اين مسئله پيچيدهتر میشود به شكلی كه تشخيص گفتار حتی از توليد گفتار سخت تر و پيچيدهتر میشود.
دقت يك سيستم تشخيص گفتار بستگی به شرايط تست دارد. در شرايط محيطی و گفتاری خاص يك سيستم بسيار خوب عمل میكند اما در شرايط عمومی اين دقت كاهش میيابد. اين شرايط ابعاد گوناگونی دارند كه میتوان به اختصار به بعضی از آنها اشاره كرد.
حجم فرهنگ لغت: به عنوان يك قانون عمومی تشخيص يك كلمه ازميان يك مجموعه كوچك بسيار ساده است اما وقتی حجم فرهنگ لغت بالا میرود ميزان خطا افزايش میيابد؛ مثلا اگر شما تنها كلمات صفر تا 9 را ادا كنيد و بخواهيد يكی از همين 10 كلمه را تشخيص دهيد، اين كار با دقت خوبی انجام میپذيرد اما اگر تعداد كلمات به 200، 5000 يا 100هزار برسد، ميزان خطا افزايش بسيار زيادی خواهد داشت.
|
" " |
|
بيش از يك دهه است كه محققان سعی میكنند تا صوت را به عنوان يك ورودی رايانه تعريف كنند. حالا به نظر میرسد اين تحقيقات به نتايج خوبی رسيدهاند. |
|
" " |
مستقل يا وابسته به گوينده: يك سيستم وابسته به گوينده تنها برای يك فرد خاص طراحی شده است اما در يك سيستم مستقل، هر فردی میتواند گويندگی را به عهده بگيرد و سيستم بايد بتواند تشخيص دهد. مشخص است كه يك سيستم مستقل از گوينده بسيار مشكلتر است و طبعا ميزان خطای آن نيز بيشتر است و بين 3 تا 5 برابر ميزان خطای سيستم وابسته به گوينده است.
گفتار مجزا، مقطع يا پيوسته: منظور از گفتار مجزا بيان تك كلمه است. گفتار مقطع گفتاری است كه جملات كامل اما با سكوتهای مصنوعی در ميان ادای هر دو كلمه بيان میشوند. گفتار پيوسته همان شيوه معمولی بيان كلمات است. تشخيص گفتار مجزا و مقطع بسيار سادهتر ميسر میشود چون كلمات بهتر و راحتتر تشخيص داده میشوند؛ اما در گفتار پيوسته بعضی اصوات حذف میشوند يا تغيير پيدا میكنند. بنابراين تشخيص اين نوع بسيار مشكلتر است.
گفتار آماده يا اتفاقی: در صورتی كه فرد جملات خود را مطابق متنی از پيش آماده بخواند عمليات تشخيص بسيار سادهتر از زمانی است كه فرد جملات را فیالبداهه ادا میكند، چون در حالت دوم فرد ممكن است مكث كند، بعضی اصوات نامفهوم را ادا كند و يا حتی بخندد يا سرفه كند.
متوجه شدهايد كه عوامل بسيار متفاوتی در كار تاثير گذار هستند و لذا الگوريتمهای پيچيدهای هستند. اين الگوريتمها را میتوان در گروههای زير دسته بندی كرد:
اين شيوه اگرچه به نظر بسيار خوب به نظر میرسد، اما به دست آوردن اين مهارتها و استفاده از آنها در سيستم تشخيص گفتار به راحتی ميسر نيست و در واقع اين روش غيرعملياتی به حساب میآيد.
اما در سيستمهای جديد تشخيص گفتار با استفاده از شبكههای گسترده عصبی و روشهای مبتنی بر آمار نتايج بسيار دقيقتر و بهتری گرفتهاند. در حال حاضر بسياری از شركتهای مهم مانند IBM و مايكروسافت روی اين سيستمها سرمايه گذاری كردهاند و به نتايج بسيار خوبی رسيدهاند. يكی از اين سرويس دهندگان تلفن همراه در كشورفرانسه يك پورتال صوتی راه اندازی كرده است و اخبار و نتايج مسابقههای ورزشی را از اين طريق در اختيار مشتركان خود قرارمیدهد. شركت ماشين سازی هوندا نيز يك سيستم راه نوردی با كمك صوت راهاندازی كرده است تا رانندگان بهتر بتوانند خودرو را هدايت كنند. با اين پيشرفتها به نظر میرسد كه در آيندهای نه چندان دور فناوری تشخيص گفتار بخشی از زندگی و كار هر روزه ما خواهد شد.
منبع: کاشف- جام جم - 27 مهر
[+]
نوشته شده توسط امید جلالی در 9:13
|
|