Follow

دوستان اینم از زحمتای شما برای کامان وویس
github.com/rhasspy/fa_kaldi-rh
خیلی خوب شده تازه با کل دیتاست هم ترین نکردیمش ولی حتما تستش کنین!

به زودی کامل ترین شدش رو هم میدیم :)

@farbod
به‌به عجب چیزیه این! ممنون از زحتی که کشیدید.

@farbod
چرا من این مطلب رو ندیدم!

در اولین فرصت امتحانش می‌کنم و خبر می‌دم.

@farbod
مدل بزرگ‌تر رو گرفتم. الان می‌اندازم روی یه ویدئو ببینم چه طور شنود! ببخشید زیرنویس می‌کنه. 😉

@farbod
راستی فرق اون دو تا مدل چیه؟
vosk-model-large-fa-rhasspy-0.15.zip
و
vosk-model-small-fa-rhasspy-0.15.zip
و منظور از WER چیه؟

@mskf1383 @[email protected] اسمال دیتاستش کوچیک
تره
ولی با جفتش امتحان کنین بنظرم ببین کدومش بهتر برات کار میکنه

@[email protected] @[email protected]
جفتش رو امتحان کردم
هیچ‌ کدوم از اون یکی بهتر نبود!
بعضی چیزها رو اسمال غلط می‌گفت بعضی‌ها رو لارج!

@mskf1383 @[email protected]
آره دقیقا مام همین مشکلو داشتیم ولی در کل لارج بهتر بود برامون

@farbod
یه جاهایی رو شوت می‌زنه اما در کل خیلی خوبه. اگر کامل‌تر بشه که قطعا خیلی خیلی هم بهتر خواهد شد.

خوشحالم که الان دیگه می‌تونم از یه مدل Vosk که از روی داده‌های آزاد تولید شده صدا رو تبدیل به متن کنم.

@farbod

راستی کمکی می‌تونم بکنم برای تولید مدل با تمام داده‌های موجود؟ من سه تا رزبری دارم که تقریبا می‌شه گفت بی کار افتاده‌اند. اگر می‌شه از اون‌ها استفاده کرد بگو.

@ahangarha نه این دوست خارجیمون ترین میکنه این مدل بزرگش فک کنم تقریبا کل موزیلا رو استفاده کرد
ولی رزبری بیکار دارین خیلی استفاده داره که :)

@farbod
آره انگاری. روی ۲۹۳ ساعت صدای آواهاش مشترک آموزش دیده یا ۱۰ درصد حاشیه برای آزمون.

پس هیچی. کار دیگه‌ای جز مشارکت در ضبط و تایید صداها از دستم بر نمیاد ظاهرا.

@ahangarha آره من دارم الان با استفاده از این متن یه کتاب صوتی رو در میارم که برای پروژه متن به گفتار بعد استفاده کنیم

@farbod
من الان با کمک نمونه کدهای خود پروژه vosk به صورت زنده از طریق میکروفن تشخیص صدا رو انجام دادم. خیلی خوبه. خطا داره اما به نظرم خیلی فراتر از انتظاره.

سر در نمیارم که چه طور خروجی text رو (یعنی جمله نهایی رو) ذخیره کنم. می‌دونی چه طور می‌شه؟

@ahangarha چجوری میخواین ذخیره بشه توی یه فایل تکس؟

@farbod
مثلا آره. نمی‌خوام این قدر شلوغ کنه صفحه رو.

@ahangarha خط 35 یه text اضافه کنین
اینجوری
result = json.loads(rec.FinalResult())["text"]

@farbod
این جمله رو عادی خوندم و دو کلمه قرمز رنگ رو از قلم انداخت. البته با یک جمله نمی‌شه قضاوت کرد. باید بررسی دقیق‌تری بشه.

@ahangarha یکم این مدل لارج که ترین کرده بدتره نسبت به کوچیکه ولی یه چیزاییشم بهتره با مدل اسمالشم یه تست میکنین نتیجه رو بگین

@farbod
حتما امتحان می‌کنم و خبر می‌دم.

چه طور این طور می‌شه؟

@ahangarha نه مثل اینکه یه کلمه رو اشتباه فهمیده بود فقط در کل بهتر بوده مدل بزرگتر

@ahangarha @farbod
واقعاً در این حد تشخیص داده؟ آفرین

@danialbehzadi
فکر کنم می‌شه گفت در حد مدل بزرگ موجود پروژه vosk داره کار می‌کنه همین الان. اشتباهاتی داره که خوب اون هم داشت. یه جاهایی رو اون درست تشخیص می‌داد و یه حاهایی رو این. فکر کنم اکر داده‌های بیشتری بهش بدیم، بترکونه

فردا برم یه استارتاپ به اسم شنودو ثبت کنم و...

@farbod

Sign in to participate in the conversation
Khiar

Khiar is a Mastodon instance for Farsi/English speakers

خیار یک نمونه ماستودون برای فارسی/انگلیسی‌زبانان است.