ਮਸ਼ੀਨੀ ਬੁੱਧਿਮਾਨਤਾ (ਏਆਈ) ਰਾਹੀਂ ਪੰਜਾਬੀ ਨੂੰ ਸਮੇਂ ਦਾ ਹਾਣੀ ਬਣਾਉਣ ਲਈ ਸਰਕਾਰ ਕਰੇ ਪਹਿਲ/AI_and_Punjabi_Language


The government should take the initiative to make Punjabi a contemporary

Dr. C P Kamboj spoke about not including Punjabi in Gemini software

ਜੈਮਿਨੀ ਸਾਫਟਵੇਅਰ ਚ ਪੰਜਾਬੀ ਨੂੰ ਸ਼ਾਮਲ ਨਾ ਕਰਨ ਤੇ ਬੋਲੇ ਡਾ. ਸੀ ਪੀ ਕੰਬੋਜ
ਨਵਦੀਪ ਢੀਂਗਰਾ, ਪਟਿਆਲਾ
ਗੂਗਲ ਦੇ ਨਵੇਂ ਸਾਫਟਵੇਅਰ ਜੈਮਨੀ ਵਿੱਚ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਨੂੰ ਜਗ੍ਹਾ ਨਹੀਂ ਮਿਲੀ ਸਕੀ ਹੈ। ਹੁਣ ਤੱਕ ਦੇ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮੰਨੇ ਜਾਂਦੇ ਇਸ ਸਫਾਟਵੇਅਰ ਵਿਚ ਭਾਰਤ ਦੀਆਂ ਨੌ ਖੇਤਰੀ ਭਾਸ਼ਾਵਾਂ ਤਾਂ ਸ਼ਾਮਿਲ ਹਨ ਪਰ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਦੇ ਇਸ ਸੂਚੀ ਵਿਚ ਸ਼ਾਮਿਲ ਨਾ ਹੋਣ ’ਤੇ ਪੰਜਾਬੀ ਹਿਤੈਸ਼ੀ ਅਤੇ ਬੁਧੀਜੀਵੀਆਂ ਵਲੋਂ ਚਿੰਤਾ ਜਾਹਿਰ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ। ਮਾਂ ਬੋਲੀ ਸਬੰਧੀ ਇਸ ਭਖਦੇ ਮਸਲੇ ਨੂੰ ਲੈ ਕੇ ਪੰਜਾਬੀ ਯੂਨੀਵਰਸਿਟੀ ਪੰਜਾਬੀ ਕੰਪਿਊਟਰ ਸਹਾਇਤਾ ਕੇਂਦਰ ਦੇ ਸਹਾਇਕ ਪ੍ਰੋਫੈਸਰ ਤੇ ਤਕਨੀਕੀ ਮਾਹਿਰ ਡਾ. ਸੀ.ਪੀ. ਕੰਬੋਜ ਨੇ ਪੰਜਾਬੀ ਨੂੰ ਜੈਮਿਨੀ ਦਾ ਹਿੱਸਾ ਬਣਾਉਣ ਤੇ ਹੁਣ ਤੱਕ ਪੱਛੜੇ ਰਹਿਣ ਬਾਰੇ ਅਹਿਮ ਖੁਲਾਸੇ ਕੀਤੇ ਹਨ।


ਜੈਮਿਨੀ ਪ੍ਰੋ ਕੀ ਹੈ ?
ਡਾ. ਕੰਬੋਜ-ਇਕ ਸਾਲ ਪਹਿਲਾਂ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਅਧਾਰਿਤ ‘ਚੈਟ ਜੀਪੀਟੀ’ ਦਾ ਪਹਿਲਾ ਸੰਸਕਰਨ ਆਇਆ ਸੀ। ਇਸ ਵਿਚ ਵੀ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਸ਼ਾਮਲ ਨਹੀਂ ਸੀ ਪਰ ਉਸ ਸਮੇਂ ਇਸਨੂੰ ਗੰਭੀਰਤਾ ਨਾਲ ਨਹੀਂ ਲਿਆ ਗਿਆ। ਚੈਟ ਜੀਪੀਟੀ ਦਾ ਟਾਕਰਾ ਕਰਨ ਲਈ ਗੂਗਲ ਨੇ ਬਾਰਡ ਨਾਮ ਦਾ ਸੋਫਟਵੇਅਰ ਬਣਾਇਆ ਸੀ, ਹੁਣ 24 ਫਰਵਰੀ ਨੂੰ ਗੂਗਲ ਨੇ ਬਾਰਡ ਦਾ ਨਵਾਂ ਰੂਪ ‘ਜੇਮਨੀ’ ਜਾਰੀ ਕੀਤਾ ਹੈ। 150 ਮੁਲਕਾਂ ਵਿਚ 40 ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਸ਼ੁਰੂ ਕੀਤੇ ਇਸ ਸਾਫਟਵੇਅਰ ਵਿਚ ਭਾਰਤ ਦੀਆਂ ਹਿੰਦੀ, ਤਾਮਿਲ, ਤੇਲਗੂ, ਬੰਗਾਲੀ, ਕੰਨੜ, ਮੱਲਿਆਲਮ, ਮਰਾਠੀ, ਗੁਜਰਾਤੀ ਤੇ ਉਰਦੂ ਸ਼ਾਮਲ ਹਨ, ਪਰ ਪੰਜਾਬੀ ਇਸ ਵਿੱਚ ਨਹੀਂ ਹੈ। ਮਸ਼ੀਨੀ ਬੁੱਧੀਮਾਨਤਾ ਅਧਾਰਿਤ ਇਹ ਸਾਫਟਵੇਅਰ ਹੁਣ ਤੱਕ ਦਾ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੈ। ਇਸ ਸਾਫਟਵੇਅਰ ਰਾਹੀਂ ਅਸੀਂ ਕਿਸੇ ਵੀ ਤਸਵੀਰ ਨਾਲ ਉਸਦਾ ਵੇਰਵਾ ਤੇ ਵੇਰਵੇ ਨਾਲ ਉਸਦੀ ਤਸਵੀਰ ਅਤੇ ਵੀਡੀਓ ਤੱਕ ਵੀ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਾਂ। ਗੂਗਲ ਤੇ ਜੈਮਨੀ ਵਿਚ ਫਰਕ ਇਹ ਹੈ ਕਿ ਗੂਗਲ ਵੈਬਸਾਈਟ ਦੀ ਸੂਚੀ ਦੱਸਦਾ ਹੈ ਪਰ ਜੈਮਨੀ ਸੂਚੀ ਦੇਣ ਦੀ ਬਜਾਏ ਸਿੱਧਾ ਅਤੇ ਸਹੀ ਨਤੀਜਾ ਹੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ।


ਇਸ ਸਾਫ਼ਟਵੇਅਰ ਵਿੱਚ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਕਿਉਂ ਨਹੀਂ ਹੋਈ ਸ਼ਾਮਿਲ ?
ਡਾ. ਕੰਬੋਜ-ਗੂਗਲ ਨੇ ਪੰਜਾਬੀ ਨੂੰ ਬਾਹਰ ਨਹੀਂ ਕੱਢਿਆ ਸਗੋਂ ਗਿਣਾਤਮਕ ਪੱਖੋਂ ਮਾਪਦੰਡ ਪੂਰੇ ਨਾ ਕਰਨ, ਡਾਟਾ ਦੀ ਲੋੜੀਂਦੀ ਸਮਰੱਥਾ ਨਾ ਹੋਣ ਕਰਕੇ ਗੂਗਲ ਆਪਣੇ ਸਾਫਟਵੇਅਰ ਨੂੰ ਪੰਜਾਬੀ ਦੀ ਸਿਖਲਾਈ ਨਹੀਂ ਦੇ ਸਕਿਆ। ਵੱਡਾ ਭਾਸ਼ਾ ਮਾਡਲ (ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲ) ਲੋੜੀਂਦਾ ਹੈ ਜੋਕਿ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਵਿਚ ਨਹੀਂ ਹੈ। ਚੈਟ ਜੀਪੀਟੀ ਦਾ ਤੀਜਾ ਸੰਸਕਰਨ ਬਣਾਉਣ ਲਈ ਇਕ ਹਜ਼ਾਰ ਕਰੋੜ ਵਾਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਸ਼ੀਨ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ। ਹੁਣ ਜੀਪੀਟੀ ਦਾ ਚੌਥਾ ਸੰਸਕਰਨ ਵੀ ਆ ਚੁੱਕਿਆ ਹੈ ਵਾਕਾਂ ਦੀ ਗਿਣਤੀ ਹੋਰ ਵਧ ਗਈ ਹੈ। ਜਦੋਂਕਿ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਦੇ ਡਾਟਾ ਦੀ ਇੰਟਰਨੈੱਟ ’ਤੇ ਬਹੁਤ ਵੱਡੀ ਥੋੜ ਹੈ। ਲਾਇਬ੍ਰੇਰੀ ਦੀਆਂ ਹੀ ਲੱਖਾਂ ਕਿਤਾਬਾਂ ਨੇ ਨੈੱਟ ਦਾ ਮੂੰਹ ਵੀ ਨਹੀਂ ਦੇਖਿਆ ਹੈ।

ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਕਿਵੇਂ ਹੋਈਆਂ ਸ਼ਾਮਿਲ ?
ਡਾ. ਕੰਬੋਜ-ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਾਲਿਆਂ ਨੇ ਚੈਟ ਜੀਪੀਟੀ ਆਉਣ ਦੇ ਨਾਲ ਹੀ ਇਸ ’ਤੇ ਕੰਮ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ ਸੀ। ਸਰਕਾਰ ਦੇ ਫੰਡ, ਨੌਜਵਾਨ ਸ਼ਕਤੀ ਤੇ ਤਕਨੀਕ ਦੇ ਸੁਮੇਲ ਨਾਲ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ, ਜਿਸ ਨਾਲ ਉਨਾਂ ਦੀ ਭਾਸ਼ਾ ਨੂੰ ਫਾਇਦਾ ਹੋਇਆ ਹੈ। ਪਰ ਪੰਜਾਬ ਵਿਚ ਇਸ ’ਤੇ ਕੰਮ ਅੱਜ ਤੱਕ ਸ਼ੁਰੂ ਵੀ ਨਹੀਂ ਹੋਇਆ, ਜਿਸ ਕਰਕੇ ਅਸੀਂ ਪਿੱਛੇ ਰਹਿ ਗਏ। ਪੰਜਾਬ ਵਿਚ ਸਾਹਿਤਕ ਖੇਤਰ ਬਹੁਤ ਵੱਡਾ ਹੈ ਪਰ ਤਕਨੀਕੀ ਤੌਰ ’ਤੇ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਸਮੇਂ ਦੀ ਹਾਣੀ ਨਹੀਂ ਬਣ ਸਕੀ ਹੈ।

ਗੂਗਲ ’ਤੇ ਲੱਗ ਰਹੇ ਦੋਸ਼

ਡਾ. ਕੰਬੋਜ ਦੱਸਦੇ ਹਨ ਕਿ ਭਾਸ਼ਾ ਨਾਲ ਭਾਵੁਕਤਾ ਰੱਖਣ ਵਾਲੇ ਗੂਗਲ ’ਤੇ ਦੋਸ਼ ਲਗਾ ਰਹੇ ਹਨ ਪਰ ਅਜਿਹਾ ਕਰਨਾ ਠੀਕ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਗੂਗਲ ਇਕ ਵਪਾਰਕ ਕੰਪਨੀ ਹੈ, ਜਿਸਦਾ ਸੰਬੰਧ ਕਿਸੇ ਭਾਸ਼ਾ ਦੇ ਬੁਲਾਰਿਆਂ ਦੀ ਭਾਵਨਾਵਾਂ ਨਾਲ ਨਹੀਂ ਸਗੋਂ ਵਪਾਰ ਨਾਲ ਹੈ। ਸਾਫਟਵੇਅਰ ਦੀ ਮਹੀਨਾਵਰ ਫੀਸ ਹੈ, ਜਿਸ ਨਾਲ ਕੰਪਨੀ ਨੂੰ ਵਿੱਤੀ ਲਾਭ ਹੋਣਾ ਹੈ, ਇਸ ਲਈ ਇਸ ਵਿਚ ਕਿਸੇ ਭਾਸ਼ਾ ਨਾਲ ਕੋਈ ਵਿਤਕਰਾ ਨਹੀਂ ਕਿਹਾ ਜਾ ਸਕਦਾ ਸਗੋਂ ਅਸੀਂ ਮਾਪਦੰਡ ਪੂਰੇ ਨਹੀਂ ਕੀਤੇ, ਜਿਸਦਾ ਨਤੀਜਾ ਸਭ ਦੇ ਸਾਹਮਣੇ ਹੈ।

ਇਨਾਂ ਤੋਂ ਬਿਨਾਂ ਨਹੀਂ ਹੋ ਸਕਦਾ ਹੱਲ
ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਹਿਤੈਸ਼ੀਆਂ ਵਲੋਂ ਬੈਠਕ ਕਰਕੇ ਮਸ਼ੀਨੀ ਬੁੱਧੀਮਾਨਤਾ ਪੰਜਾਬੀ ਭਾਸ਼ਾ ਮਿਸ਼ਨ ਦਾ ਗਠਨ ਕਰਨ ਬਾਰੇ ਡਾ. ਕੰਬੋਜ ਦੱਸਦੇ ਹਨ ਕਿ ਇਨਾਂ ਦੀ ਮਨਸ਼ਾ ਚੰਗੀ ਹੈ ਪਰ ਕੁਝ ਗੰਭੀਰ ਮਸਲੇ ਹਨ ਜਿਨਾਂ ਬਾਰੇ ਹਾਲੇ ਤੱਕ ਕੋਈ ਗੱਲ ਵੀ ਨਹੀਂ ਤੁਰੀ ਹੈ। ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕਾਪੀ ਰਾਈਟ ਦਾ ਮਸਲਾ ਹੈ। ਲਾਇਬ੍ਰੇਰੀਆਂ, ਲੇਖਕ, ਪ੍ਰਕਾਸ਼ਕ, ਮਾਲਕ ਆਪਣੀਆਂ ਕਿਤਾਬਾਂ ਨੂੰ ਨੈੱਟ ’ਤੇ ਚੜਾਉਣ ਲਈ ਹੱਕ ਦੇਣ ਜਾਂ ਨਾ ਦੇਣ ਉਨਾਂ ਦਾ ਅਧਿਕਾਰ ਹੈ। ਸਰਕਾਰ ਦੇ ਫੰਡਾਂ ਨਾਲ ਛਪਣ ਵਾਲੀਆਂ ਕਿਤਾਬਾਂ ਨੂੰ ਇਸ ਕੰਮ ਲਈ ਵਰਤਣ ਦਾ ਹੁਕਮ ਦੇ ਸਕਦੀ ਹੈ। ਪਰ ਨਿੱਜੀ ਛਾਪਕ ਜਾਂ ਲੇਖਕਾਂ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਭਰੋਸੇ ਵਿਚ ਲੈਣਾ ਹੈ ਇਸ ਬਾਰੇ ਕੋਈ ਫੈਸਲਾ ਨਹੀਂ ਹੋਇਆ ਹੈ। ਜਿਹੜਾ ਡਾਟਾ ਇਕੱਠਾ ਕੀਤਾ ਜਾਣਾ ਹੈ, ਇਹ ਸਾਡੇ ਕੋਲ ਰਹੇਗਾ ਜਾਂ ਕਿਸੇ ਕੰਪਨੀ ਨੂੰ ਸੌਂਪਿਆ ਜਾਣਾ ਹੈ, ਇਸ ਬਾਰੇ ਵੀ ਸਪਸ਼ਟ ਨਹੀਂ ਹੈ। ਇਕੱਠੇ ਕੀਤੇ ਡਾਟਾ ’ਤੇ ਅਧਿਕਾਰ ਸਰਕਾਰ ਦਾ ਹੋਵੇਗਾ, ਮਿਸ਼ਨ ਦਾ ਹੋਵੇਗਾ ਜਾਂ ਪੰਜਾਬੀਆਂ ਦਾ ਹੋਵੇਗਾ, ਇਹ ਵੀ ਕੁਝ ਪਤਾ ਨਹੀਂ।

ਸਰਕਾਰ ਹੋਵੇ ਗੰਭੀਰ
ਡਾ. ਕੰਬੋਜ ਦੱਸਦੇ ਹਨ ਕਿ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਲਈ ਤੇ ਮਸ਼ੀਨ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵੱਡੇ ਕੰਪਿਊਟਰਾਂ ਸਮੇਤ ਮਹਿੰਗੇ ਸਾਜੋ ਸਮਾਨ ਦੀ ਲੋੜ ਹੋਵੇਗੀ, ਇਸ ਵਿਚ ਸਰਕਾਰੀ ਕਰਮਚਾਰੀਆਂ ਦੀ ਵੀ ਲੋੜ ਹੋਵੇਗੀ ਜਿਹੜੇ ਸਾਰਾ ਡਾਟਾ ਇਕੱਤਰ ਕਰਨਗੇ। ਕੁੱਲ ਮਿਲਾ ਕੇ ਇਸ ਲਈ ਵੱਡੇ ਬਜਟ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਇਸ ਲਈ ਸਰਕਾਰ ਖੁਦ ਇਸ ਮਸਲੇ ’ਤੇ ਗੰਭੀਰ ਹੋਵੇ, ਆਪਣੇ ਏ.ਆਈ. ਵਿੰਗ ਦਾ ਗਠਨ ਕਰੇ, ਪੁਰਾਣੇ ਡਾਟਾ ਦੀ ਡਿਜੀਟੇਲਾਈਜੇਸ਼ਨ ਕਰਵਾਈ ਜਾਵੇ। ਸ਼ੋਸ਼ਲ ਮੀਡੀਆ ’ਤੇ ਚਰਚਾ ਵਰਗਾ ਅਤੇ ਸਵਾਲ ਜਵਾਬ ਦੇ ਰੂਪ ਵਿਚ ਡਾਟਾ ਇਕੱਤਰ ਕਰਨ ਲਈ ਨੌਜਵਾਨਾਂ ਨੂੰ ਰੁਜਗਾਰ ਦੇ ਮੌਕੇ ਦੇਵੇ। ਇਹ ਸਾਰਾ ਕੰਮ ਕਿਸੇ ਬਾਹਰੀ ਕੰਪਨੀ ਦੀ ਬਜਾਏ ਪੰਜਾਬ ਦੀ ਧਰਤੀ ਤੇ ਪੰਜਾਬ ਦੇ ਲੋਕਾਂ ਵਲੋਂ ਤੇ ਲੋਕਾਂ ਲਈ ਹੋਵੇ।

Google’s new AI software, Gemini, has been rolled out in multiple countries for iOS and Android devices. Previously known as Bard, this powerful software is available in English and supports 40 languages on the web. However, Punjabi, despite being a regional language of India, is notably absent from the list of supported languages. Dr. CP Kamboj, an assistant professor and technical expert at Punjabi University’s Computer Support Center, has raised concerns about the exclusion of Punjabi from Gemini. Unlike Google, which lists websites, Gemini provides direct and accurate results, making it a significant advancement in machine intelligence. Additionally, Gemini allows users to extract details from images and videos. While other Indian languages like Hindi, Tamil, Telugu, Bengali, Kannada, Malayalam, Marathi, Gujarati, and Urdu are included, the absence of Punjabi has sparked discussions about language representation in AI systems.

Google’s new AI software, Gemini, has been rolled out in multiple countries for iOS and Android devices. Previously known as Bard, this powerful software is available in English and supports 40 languages on the web. However, Punjabi, despite being a regional language of India, is notably absent from the list of supported languages. Dr. CP Kamboj, an assistant professor and technical expert at Punjabi University’s Computer Support Center, has raised concerns about the exclusion of Punjabi from Gemini. Unlike Google, which lists websites, Gemini provides direct and accurate results, making it a significant advancement in machine intelligence. Additionally, Gemini allows users to extract details from images and videos. While other Indian languages like Hindi, Tamil, Telugu, Bengali, Kannada, Malayalam, Marathi, Gujarati, and Urdu are included, the absence of Punjabi has sparked discussions about language representation in AI systems.

Dr. Kamboj clarifies that Google did not intentionally exclude Punjabi. Instead, the absence is due to the lack of sufficient training data and vocabulary in Punjabi. The machine learning model behind Gemini was trained using one billion sentences, and while there is a wealth of Punjabi language data available online, it has not been harnessed effectively for this purpose. In contrast, other languages like those in Cambodia benefited from a combination of government funding, youth participation, and technology to contribute to Chat GPT. Unfortunately, Punjab has not made similar progress, leaving Punjabi behind in the technological landscape. Dr. Kamboj emphasizes that Google, as a commercial company, prioritizes business considerations over emotional sentiments related to language. The absence of Punjabi in Gemini is a result of not meeting the necessary criteria rather than deliberate discrimination. To address this, a Machine Intelligence Punjabi Language Mission has been proposed, but critical issues remain unresolved2.




Previous
Next Post »