Masinõppeks on vaja suurt andmehulka. Vähese kõnelejate arvuga keele puhul on kallis palgata inimesi arvutile tekste ette lugema, et arvuti õpiks teksti kõneks teisendama. Samuti on kallis kõne kirjapanijaid palgata, et arvuti õpiks kõnet tekstiks tõlkima. Peaks leidma juba nii kõnes kui kirjas olemas olevaid tekste, mida masinõppele sööta. Üks näide on raadiointervjuud, mis ka ajalehes avaldatakse (Kuku Raadio saade Restart Postimehe majanduslehekülgedel, Toomas Sildami intervjuud). Probleemiks on suulise intervjuu toimetamine enne kirjalikku avaldamist, mis tähendab, et kõne ja tekst ei ole üksüheses vastavuses. Natuke kasu sellest siiski arvutile on, sest osad laused korduvad kõnes ja kirjas. Kõnenäidiseid ilma kirjaliku vasteta saab audiovisuaalsest ajakirjandusest hulganisti, samuti kirjalikku teksti helilise vasteta trükiajakirjandusest.
Kui koolides on tehtud etteütlusi arvutisse trükituna ja nende suuline salvestis on ka saadaval, siis saab neid arvuti treenimiseks kasutada.
Näidendite ja filmide tekstid ja helisalvestised on samuti vastavuses kõne ja kiri. Samuti laulusõnad ja laulud, aga laulu hääldus ja rütm on tavakõnest erinev, nii et see ei pruugi arvutit aidata muus kui laulude tõlkimisel heli ja kirja vahel.
Audioraamatud, mille puhul ettelugemine vastab kirjapandule, on head pikad sama häälega loetud tekstid arvuti treenimiseks.
Maailma suuremate keelte edukamad masintõlkefirmad on ilmselt leidnud palju teisi treeningandmete hulki, mida oma programmide arendamiseks kasutada.