Skip to content

Corpws brawddegau CC0 ar gyfer promptiau adnabod lleferydd Cymraeg // A corpus of CC0 licensed sentences as prompts for Welsh speech recognition training

Notifications You must be signed in to change notification settings

techiaith/brawddegau-adnabod-lleferydd

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Read this README in English

Brawddegau Adnabod Lleferydd

Mae hwn yn gronfa o fraweddegau Cymraeg sy'n cael eu rhyddhau dan drwydded CC0 a chasglwyd gan aelodau'r Uned Technolegau Iaith, Prifysgol Bangor yn unswydd i fod yn bromptiau ar gyfer recordio sain i hyfforddi modelau adnabod lleferydd Cymraeg. O'r herwydd, maent yn frawddegau gweddol fyr, ac nid ydynt yn cynnwys llawer o nodau a symbolau llai cyffredin.

Cyflwynwyd y frawddegau hyn hefyd i broject Common Voice Mozilla, a defnyddiwyd y brawddegau hyn felly ar gyfer recordio gwirfoddolwyr.

Brawddegau wedi'u gasglu o ffynonellau Cymraeg

Mae'r ffeil data/cy.txt yn gasgliad o 14,857 brawddeg o'r ffynonellau canlynol:

  • Brawddegau gwreiddiol
  • Brawddegau allan o nofelau, ysgrifau a deunydd arall allan o hawlfraint
  • Brawddegau o Wicipedia Cymraeg lle rhoddodd yr awduron ganiatâd i ni eu rhyddhau dan drwydded CC0
  • Trydariadau, e-byst a deunydd electronig eraill a roddwyd i’r project i’w defnyddio fel promptiau.

Mewn nifer o achosion, ystwythwyd yr iaith a golygwyd y brawddegau yn bur drwm i’w gwneud yn addas i’w darllen yn uchel gan wirfoddolwyr.

Mae'r brawddegau hyn hefyd yn ffurfio rhan o gorpws CC0 ehangach a geir yn https://github.com/techiaith/corpws-CC0.

Dymunwn ddiolch i bawb a’n cynorthwyodd i gasglu’r brawddegau hyn, gan gynnwys y rhai a roddodd eu deunyddiau i ni dan drwyddedau CC0, ac i Mozilla am eu cymorth a’u harweiniad gyda’r project Common Voice.

Brawddegau Cymraeg o gorpws CoVoST

Mae'r ffeil data/covost/cy.txt yn ddetholiad o 101,535 brawddeg Cymraeg o gorpws CoVoST. Mae CoVoST yn gorpws amlieithog a ddarparwyd gan Facebook drwy cyfieithu yn beirianyddol brawddegau wahanol ieithoedd Common Voice gan gynnwys y Gymraeg.

Mae mwy o wybodaeth am y gorpws a'r broses ddethol ar gael yn data/covost/README.md

About

Corpws brawddegau CC0 ar gyfer promptiau adnabod lleferydd Cymraeg // A corpus of CC0 licensed sentences as prompts for Welsh speech recognition training

Topics

Resources

Stars

Watchers

Forks