ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ 14 ਸਭ ਤੋਂ ਵਧੀਆ ਡੇਟਾਸੈੱਟ

ਵਿਸ਼ਾ - ਸੂਚੀ[ਛੁਪਾਓ][ਦਿਖਾਓ]

ਡੇਟਾਸੇਟਸ ਦੀਆਂ ਮੂਲ ਗੱਲਾਂ
ML ਲਈ ਡੇਟਾਸੈੱਟ+-
ਹੋਰ ਡੇਟਾਸੇਟਸ ਲੱਭਣ ਲਈ ਪਲੇਟਫਾਰਮ+-
ਸਿੱਟਾ

ਹਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰੋਜੈਕਟ ਇੱਕ ਚੰਗੇ ਡੇਟਾਸੈਟ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਹ ਇਹ ਵੱਡਾ ਡੇਟਾਸੈਟ ਹੈ ਜੋ ਤੁਹਾਨੂੰ ਤੁਹਾਡੇ ML ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਅਤੇ ਪ੍ਰਮਾਣਿਤ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦੇਵੇਗਾ। ਇਸ ਲਈ, ਇੱਕ ML ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਕੰਮ ਦਾ ਇੱਕ ਵੱਡਾ ਹਿੱਸਾ ਤੁਹਾਡੀਆਂ ਲੋੜਾਂ ਲਈ ਸੰਪੂਰਨ ਡੇਟਾਸੈਟ ਲੱਭ ਰਿਹਾ ਹੈ। ਹਾਲਾਂਕਿ, ਤੁਹਾਡੀ ਅਭਿਲਾਸ਼ਾ ਨੂੰ ਫਿੱਟ ਕਰਨ ਵਾਲੇ ਵਿਕਲਪ ਨੂੰ ਲੱਭਣਾ ਹਮੇਸ਼ਾ ਸੰਭਵ ਨਹੀਂ ਹੁੰਦਾ, ਕਿਉਂਕਿ ਬਹੁਤ ਸਾਰੀਆਂ ਫਾਈਲਾਂ ਜੋ ਦਿਲਚਸਪ ਲੱਗਦੀਆਂ ਹਨ, ਅੰਤ ਵਿੱਚ, ਉਹ ਨਹੀਂ ਹਨ।

ਜਦੋਂ ਤੱਕ ਤੁਸੀਂ ਇੱਕ ਆਦਰਸ਼ ਸੈੱਟ 'ਤੇ ਨਹੀਂ ਪਹੁੰਚਦੇ ਹੋ, ਅਣਗਿਣਤ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਡਾਊਨਲੋਡ ਕਰਨ ਵਿੱਚ ਸਮਾਂ ਬਰਬਾਦ ਕਰਨਾ ਔਖਾ ਹੋ ਸਕਦਾ ਹੈ। ਇਸ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਅਸੀਂ ਕੁਝ ਵਿਕਲਪ ਇਕੱਠੇ ਕੀਤੇ ਹਨ ਜੋ ਦਿਲਚਸਪ ਲੱਗਦੇ ਹਨ ਅਤੇ ਤੁਹਾਡੇ ML ਪ੍ਰੋਜੈਕਟ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਨੋਟ ਕਰੋ ਕਿ ਕੁਝ ਵਪਾਰਕ ਵਰਤੋਂ ਦੀ ਬਜਾਏ ਨਿੱਜੀ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਇਸ ਲਈ ਇਹਨਾਂ ਵਿਕਲਪਾਂ ਨੂੰ ML ਬ੍ਰਹਿਮੰਡ ਵਿੱਚ ਅਨੁਭਵ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਜੋਂ ਦੇਖੋ।

ਡੇਟਾਸੇਟਸ ਦੀਆਂ ਮੂਲ ਗੱਲਾਂ

ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਅਸੀਂ ਡੇਟਾਸੇਟਾਂ ਦਾ ਜ਼ਿਕਰ ਕਰੀਏ, ਸਾਨੂੰ ਕੁਝ ਸ਼ਰਤਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ, ਖਾਸ ਕਰਕੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ, ਡਾਟਾ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਦੀ ਲੋੜ ਹੈ, ਜੋ ਕਿ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਵਰਤਿਆ ਜਾਵੇਗਾ. ਡੇਟਾ ਦੀ ਇਹ ਮਾਤਰਾ ਇੱਕ ਡੇਟਾਬੇਸ ਵਿੱਚ ਇਕੱਠੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਜੋ ਇੱਕ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਿਖਾਉਣ ਲਈ ਬਹੁਤ ਉਪਯੋਗੀ ਹੈ।

ਇਸ ਡੇਟਾ ਦੇ ਨਾਲ, ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ - ਵੀ ਜਾਂਚ ਕੀਤੀ ਜਾਂਦੀ ਹੈ - ਅਤੇ ਪੈਟਰਨ ਲੱਭਣ, ਰਿਸ਼ਤੇ ਸਥਾਪਤ ਕਰਨ ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਖੁਦਮੁਖਤਿਆਰੀ ਨਾਲ ਫੈਸਲੇ ਲੈਣ ਦੇ ਯੋਗ ਬਣ ਜਾਂਦੀ ਹੈ। ਸਿਖਲਾਈ ਤੋਂ ਬਿਨਾਂ, ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਐਲਗੋਰਿਦਮ ਕੋਈ ਕਾਰਵਾਈ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਹਨ। ਇਸ ਲਈ, ਸਿਖਲਾਈ ਡੇਟਾ ਜਿੰਨਾ ਵਧੀਆ ਹੋਵੇਗਾ, ਮਾਡਲ ਉੱਨਾ ਹੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰੇਗਾ। ਪ੍ਰੋਜੈਕਟ ਲਈ ਲਾਭਦਾਇਕ ਹੋਣ ਲਈ ਇੱਕ ਡੇਟਾਬੇਸ ਲਈ, ਇਹ ਮਾਤਰਾ ਬਾਰੇ ਨਹੀਂ ਹੈ: ਇਹ ਵਰਗੀਕਰਨ ਬਾਰੇ ਵੀ ਹੈ।

ਆਦਰਸ਼ਕ ਤੌਰ 'ਤੇ, ਡੇਟਾ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਲੇਬਲ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ. ਚੈਟਬੋਟਸ ਦੇ ਮਾਮਲੇ ਬਾਰੇ ਸੋਚੋ: ਭਾਸ਼ਾ ਸੰਮਿਲਨ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਪਰ ਸਾਵਧਾਨੀਪੂਰਵਕ ਸੰਰਚਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਬਣਾਇਆ ਗਿਆ ਐਲਗੋਰਿਦਮ ਸਮਝ ਸਕੇ ਜਦੋਂ ਵਾਰਤਾਕਾਰ ਸਲੈਂਗ ਦੀ ਵਰਤੋਂ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਤੋਂ ਬਾਅਦ ਹੀ ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟ ਯੂਜ਼ਰ ਦੁਆਰਾ ਬੇਨਤੀ ਕੀਤੇ ਅਨੁਸਾਰ ਜਵਾਬ ਲਾਂਚ ਕਰਨ ਦੇ ਯੋਗ ਹੋਵੇਗਾ।

ਡਾਟਾਸੈੱਟ ਸਰਵੇਖਣਾਂ, ਉਪਭੋਗਤਾ ਖਰੀਦ ਡੇਟਾ, ਸੇਵਾਵਾਂ 'ਤੇ ਛੱਡੇ ਗਏ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਹੋਰ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ ਜੋ ਇੱਕ CSV ਫਾਈਲ ਵਿੱਚ ਕਾਲਮਾਂ ਅਤੇ ਕਤਾਰਾਂ ਵਿੱਚ ਸੰਗਠਿਤ ਉਪਯੋਗੀ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ।

ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਤੁਸੀਂ ਸੰਪੂਰਣ ਡੇਟਾਸੈਟ ਦੀ ਖੋਜ ਵਿੱਚ ਬਾਹਰ ਨਿਕਲੋ, ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਉਦੇਸ਼ ਨੂੰ ਜਾਣਦੇ ਹੋ, ਖਾਸ ਤੌਰ 'ਤੇ ਜੇਕਰ ਇਹ ਕਿਸੇ ਖਾਸ ਖੇਤਰ ਤੋਂ ਹੈ, ਜਿਵੇਂ ਕਿ ਮੌਸਮ, ਵਿੱਤ, ਸਿਹਤ ਆਦਿ। ਇਹ ਉਸ ਸਰੋਤ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰੇਗਾ ਜਿੱਥੋਂ ਤੁਸੀਂ ਆਪਣੇ ਡਾਟਾਸੈੱਟ।

ML ਲਈ ਡੇਟਾਸੈੱਟ

ਚੈਟਬੋਟ ਸਿਖਲਾਈ

ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਚੈਟਬੋਟ ਨੂੰ ਮਨੁੱਖੀ ਦਖਲ ਤੋਂ ਬਿਨਾਂ ਉਪਭੋਗਤਾ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਜਲਦੀ ਹੱਲ ਕਰਨ ਲਈ ਬਹੁਤ ਸਾਰੇ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਚੈਟਬੋਟ ਵਿਕਾਸ ਵਿੱਚ ਮੁੱਖ ਰੁਕਾਵਟ ਇਹਨਾਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ-ਅਧਾਰਿਤ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਯਥਾਰਥਵਾਦੀ, ਕਾਰਜ-ਮੁਖੀ ਡਾਇਲਾਗ ਡੇਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ।

ਇੱਕ ਵਾਰਤਾਲਾਪ ਡੇਟਾਸੈਟ ਇੱਕ ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਫਾਰਮੈਟ ਵਿੱਚ ਡੇਟਾ ਇਕੱਠਾ ਕਰਦਾ ਹੈ। ਇਹ ਚੈਟਬੋਟਸ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਆਦਰਸ਼ ਹੈ ਜੋ ਦਰਸ਼ਕਾਂ ਨੂੰ ਸਵੈਚਲਿਤ ਜਵਾਬ ਦੇਣਗੇ। ਇਸ ਡੇਟਾ ਤੋਂ ਬਿਨਾਂ, ਚੈਟਬੋਟ ਮਨੁੱਖੀ ਦਖਲ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਉਪਭੋਗਤਾ ਦੀਆਂ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਜਲਦੀ ਹੱਲ ਕਰਨ ਜਾਂ ਉਪਭੋਗਤਾ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਅਸਫਲ ਹੋ ਜਾਵੇਗਾ।

ਇਹਨਾਂ ਡੇਟਾਸੈਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਕਾਰੋਬਾਰ ਇੱਕ ਅਜਿਹਾ ਟੂਲ ਬਣਾ ਸਕਦੇ ਹਨ ਜੋ ਗਾਹਕਾਂ ਨੂੰ 24/7 ਤੁਰੰਤ ਜਵਾਬ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਅਤੇ ਗਾਹਕ ਸਹਾਇਤਾ ਕਰਨ ਵਾਲੇ ਲੋਕਾਂ ਦੀ ਟੀਮ ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਸਸਤਾ ਹੈ।

1. ਸਵਾਲ-ਜਵਾਬ ਡੇਟਾਸੈਟ

ਇਹ ਡੇਟਾਸੈਟ ਵਿਕੀਪੀਡੀਆ ਲੇਖਾਂ, ਸਵਾਲਾਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਹੱਥੀਂ ਤਿਆਰ ਕੀਤੇ ਜਵਾਬਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ 2008 ਅਤੇ 2010 ਵਿਚਕਾਰ ਵਰਤੋਂ ਲਈ ਇਕੱਤਰ ਕੀਤਾ ਗਿਆ ਡੇਟਾਸੈਟ ਹੈ ਅਕਾਦਮਿਕ ਖੋਜ.

2. ਭਾਸ਼ਾ ਡੇਟਾ

ਭਾਸ਼ਾ ਡੇਟਾ ਯਾਹੂ ਦੁਆਰਾ ਪ੍ਰਬੰਧਿਤ ਇੱਕ ਡੇਟਾਬੇਸ ਹੈ ਜੋ ਕੰਪਨੀ ਦੀਆਂ ਕੁਝ ਸੇਵਾਵਾਂ, ਜਿਵੇਂ ਕਿ ਯਾਹੂ! ਜਵਾਬ, ਜੋ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਸਵਾਲ ਅਤੇ ਜਵਾਬ ਪੋਸਟ ਕਰਨ ਲਈ ਇੱਕ ਖੁੱਲੇ ਭਾਈਚਾਰੇ ਦੇ ਰੂਪ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ।

ਡਾਟਾਸੈੱਟ 1

3. WikiQA

WikiQA ਕਾਰਪਸ ਵਿੱਚ ਸਵਾਲਾਂ ਅਤੇ ਜਵਾਬਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਵੀ ਹੁੰਦਾ ਹੈ। ਸਵਾਲਾਂ ਦਾ ਸਰੋਤ Bing ਹੈ, ਜਦੋਂ ਕਿ ਜਵਾਬ ਸ਼ੁਰੂਆਤੀ ਸਵਾਲ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਵਾਲੇ ਵਿਕੀਪੀਡੀਆ ਪੰਨੇ ਨਾਲ ਲਿੰਕ ਕਰਦੇ ਹਨ।

ਡਾਟਾਸੈੱਟ 2 ਕੁੱਲ ਮਿਲਾ ਕੇ, ਡੇਟਾਸੈੱਟ ਵਿੱਚ 3,000 ਤੋਂ ਵੱਧ ਸਵਾਲ ਅਤੇ 29,258 ਵਾਕਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਲਗਭਗ 1,400 ਨੂੰ ਇੱਕ ਸੰਬੰਧਿਤ ਸਵਾਲ ਦੇ ਜਵਾਬਾਂ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਗਿਆ ਹੈ।

ਸਰਕਾਰੀ ਅੰਕੜੇ

ਸਰਕਾਰਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਡੇਟਾਸੈੱਟ ਜਨਸੰਖਿਆ ਡੇਟਾ ਲਿਆਉਂਦੇ ਹਨ, ਜੋ ਸਮਾਜਿਕ ਰੁਝਾਨਾਂ ਨੂੰ ਸਮਝਣ, ਜਨਤਕ ਨੀਤੀਆਂ ਬਣਾਉਣ ਅਤੇ ਸਮਾਜ ਨੂੰ ਸੁਧਾਰਨ ਨਾਲ ਸਬੰਧਤ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਵਧੀਆ ਇਨਪੁੱਟ ਹਨ। ਇਹ ਰਾਜਨੀਤਿਕ ਮੁਹਿੰਮਾਂ, ਨਿਸ਼ਾਨਾ ਇਸ਼ਤਿਹਾਰਬਾਜ਼ੀ, ਜਾਂ ਮਾਰਕੀਟ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦਾ ਹੈ।

ਇਹਨਾਂ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਅਗਿਆਤ ਡੇਟਾ ਹੁੰਦਾ ਹੈ, ਇਸਲਈ ਜਦੋਂ ਮਾਡਲ ਕੱਚੇ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਕਰ ਸਕਦੇ ਹਨ, ਤਾਂ ਨਿੱਜੀ ਗੋਪਨੀਯਤਾ ਦੀ ਕੋਈ ਉਲੰਘਣਾ ਨਹੀਂ ਹੁੰਦੀ ਹੈ।

4. Data.gov

2009 ਵਿੱਚ ਲਾਂਚ ਕੀਤਾ ਗਿਆ, Data.gov ਡੇਟਾ ਲਈ ਉੱਤਰੀ ਅਮਰੀਕਾ ਦਾ ਸਰੋਤ ਹੈ। ਇਸਦਾ ਕੈਟਾਲਾਗ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ: 218,000 ਤੋਂ ਵੱਧ ਡੇਟਾਸੈੱਟ ਜੋ ਫਾਰਮੈਟ, ਟੈਗਸ, ਕਿਸਮਾਂ ਅਤੇ ਵਿਸ਼ਿਆਂ ਦੁਆਰਾ ਵਿਭਾਜਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ।

5. EU ਓਪਨ ਡਾਟਾ ਪੋਰਟਲ

ਈਯੂ ਓਪਨ ਡੇਟਾ ਪੋਰਟਲ ਯੂਰਪੀਅਨ ਯੂਨੀਅਨ ਦੀਆਂ ਸੰਸਥਾਵਾਂ ਦੁਆਰਾ ਸਾਂਝੇ ਕੀਤੇ ਗਏ ਓਪਨ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਉਹ ਡੇਟਾ ਹਨ ਜੋ ਵਪਾਰਕ ਅਤੇ ਗੈਰ-ਵਪਾਰਕ ਵਰਤੋਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ। ਉਪਭੋਗਤਾ ਦੇ ਨਿਪਟਾਰੇ 'ਤੇ 15.5 ਹਜ਼ਾਰ ਤੋਂ ਵੱਧ ਡੇਟਾਸੈੱਟ ਹਨ, ਜੋ ਸਿਹਤ, ਊਰਜਾ, ਵਾਤਾਵਰਣ, ਸੱਭਿਆਚਾਰ ਅਤੇ ਸਿੱਖਿਆ ਵਰਗੇ ਵਿਸ਼ਿਆਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ।

ਸਿਹਤ ਡਾਟਾ

ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਚੱਲ ਰਹੇ ਸਿਹਤ ਸੰਕਟ ਦੇ ਮੱਦੇਨਜ਼ਰ, ਸਿਹਤ ਸੰਸਥਾਵਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਡੇਟਾਸੇਟ ਜਾਨਾਂ ਬਚਾਉਣ ਲਈ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੱਲ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਹਨ। ਇਹ ਡੇਟਾਸੈੱਟ ਜੋਖਮ ਦੇ ਕਾਰਕਾਂ ਦੀ ਪਛਾਣ ਕਰਨ, ਬਿਮਾਰੀ ਦੇ ਪ੍ਰਸਾਰਣ ਦੇ ਪੈਟਰਨਾਂ ਦਾ ਕੰਮ ਕਰਨ, ਅਤੇ ਨਿਦਾਨ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ।

ਇਹਨਾਂ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚ ਸਿਹਤ ਰਿਕਾਰਡ, ਮਰੀਜ਼ਾਂ ਦੀ ਜਨਸੰਖਿਆ, ਬਿਮਾਰੀ ਦਾ ਪ੍ਰਸਾਰ, ਚਿਕਿਤਸਕ ਵਰਤੋਂ, ਪੋਸ਼ਣ ਸੰਬੰਧੀ ਮੁੱਲ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ।

6. ਗਲੋਬਲ ਹੈਲਥ ਆਬਜ਼ਰਵੇਟਰੀ

ਇਹ ਡਾਟਾ ਸੈੱਟ ਵਿਸ਼ਵ ਸਿਹਤ ਸੰਗਠਨ (WHO) ਦੀ ਇੱਕ ਪਹਿਲ ਹੈ। ਇਹ ਸਿਹਤ ਦੇ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਨਾਲ ਸਬੰਧਤ ਜਨਤਕ ਡੇਟਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਿਹਤ ਪ੍ਰਣਾਲੀਆਂ, ਤੰਬਾਕੂ ਵਰਤੋਂ ਨਿਯੰਤਰਣ, ਜਣੇਪਾ, HIV/ਏਡਜ਼, ਆਦਿ ਦੁਆਰਾ ਸੰਗਠਿਤ। ਕੋਵਿਡ-19 'ਤੇ ਡੇਟਾ ਨਾਲ ਸਲਾਹ ਕਰਨ ਦਾ ਵਿਕਲਪ ਵੀ ਹੈ।

7. ਕੋਰਡ-19

CORD-19 ਕੋਵਿਡ-19 'ਤੇ ਅਕਾਦਮਿਕ ਪ੍ਰਕਾਸ਼ਨਾਂ ਅਤੇ ਨਵੇਂ ਕੋਰੋਨਾਵਾਇਰਸ ਬਾਰੇ ਹੋਰ ਲੇਖਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਹੈ। ਇਹ ਇੱਕ ਓਪਨ ਡੇਟਾਸੈਟ ਹੈ ਜਿਸਦਾ ਉਦੇਸ਼ COVID-19 'ਤੇ ਨਵੀਂ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨਾ ਹੈ।

ਡਾਟਾਸੈੱਟ 7

ਅਰਥ ਸ਼ਾਸਤਰ ਡੇਟਾ

ਵਿੱਤੀ ਵਾਤਾਵਰਣ ਨਾਲ ਸਬੰਧਤ ਡੇਟਾਸੈੱਟ ਆਮ ਤੌਰ 'ਤੇ ਬਹੁਤ ਸਾਰੀ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰਦੇ ਹਨ, ਕਿਉਂਕਿ ਇਹ ਆਮ ਗੱਲ ਹੈ ਕਿ ਉਹ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਇਕੱਠੇ ਕੀਤੇ ਗਏ ਹਨ। ਉਹ ਆਰਥਿਕ ਭਵਿੱਖਬਾਣੀਆਂ ਬਣਾਉਣ ਜਾਂ ਨਿਵੇਸ਼ ਦੇ ਰੁਝਾਨਾਂ ਨੂੰ ਸਥਾਪਤ ਕਰਨ ਲਈ ਆਦਰਸ਼ ਹਨ।

ਸਹੀ ਵਿੱਤੀ ਡੇਟਾਸੈਟਾਂ ਦੇ ਨਾਲ, ਏ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਦਿੱਤੀ ਗਈ ਸੰਪਤੀ ਦੇ ਵਿਵਹਾਰ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੇ ਯੋਗ ਹੋ ਸਕਦਾ ਹੈ। ਇਹੀ ਕਾਰਨ ਹੈ ਕਿ ਵਿੱਤੀ ਖੇਤਰ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ML ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਆਪਣੀ ਸ਼ਕਤੀ ਵਿੱਚ ਸਭ ਕੁਝ ਕਰ ਰਿਹਾ ਹੈ, ਕਿਉਂਕਿ ਕੋਈ ਵੀ ਚੀਜ਼ ਜੋ ਚੰਗੀ ਤਰ੍ਹਾਂ ਅਨੁਮਾਨ ਲਗਾ ਸਕਦੀ ਹੈ, ਉਸ ਵਿੱਚ ਲੱਖਾਂ ਡਾਲਰ ਪੈਦਾ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਹੈ। ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪਹਿਲਾਂ ਹੀ ਨਾਗਰਿਕਾਂ ਦੇ ਵਿਵਹਾਰ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਰਹੀ ਹੈ, ਜੋ ਨੀਤੀ ਨਿਰਮਾਤਾਵਾਂ ਦੇ ਆਪਣੇ ਕੰਮ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰ ਰਹੀ ਹੈ।

8. ਅੰਤਰਰਾਸ਼ਟਰੀ ਮੁਦਰਾ ਫੰਡ

IMF ਡੇਟਾਸੇਟ ਵਿੱਚ ਆਰਥਿਕ ਅਤੇ ਵਿੱਤੀ ਸੂਚਕਾਂ, ਮੈਂਬਰ ਦੇਸ਼ਾਂ ਦੇ ਅੰਕੜੇ, ਅਤੇ ਹੋਰ ਲੋਨ ਅਤੇ ਵਟਾਂਦਰਾ ਦਰ ਡੇਟਾ ਦੀ ਇੱਕ ਸੀਮਾ ਹੁੰਦੀ ਹੈ।

9. ਵਿਸ਼ਵ ਬੈਂਕ

ਵਿਸ਼ਵ ਬੈਂਕ ਦੀ ਰਿਪੋਜ਼ਟਰੀ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਦੇਸ਼ਾਂ ਤੋਂ ਆਰਥਿਕ ਜਾਣਕਾਰੀ ਦੇ ਨਾਲ ਵੱਖ-ਵੱਖ ਡੇਟਾਸੈਟ ਸ਼ਾਮਲ ਹਨ। ਮਹਾਂਦੀਪਾਂ ਦੁਆਰਾ ਵੰਡੇ ਗਏ 17,000 ਤੋਂ ਵੱਧ ਡੇਟਾਸੈੱਟ ਹਨ।

88 ਡਾਟਾਸੈੱਟ 7

ਉਤਪਾਦ ਅਤੇ ਸੇਵਾਵਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ

ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਆਪਣੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲੱਭੀਆਂ ਹਨ ਜੋ ਹੁਣ ਉੱਦਮਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਗਾਹਕਾਂ ਜਾਂ ਗਾਹਕਾਂ ਤੋਂ ਸਹੀ ਢੰਗ ਨਾਲ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਅਤੇ ਸਿੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰ ਰਹੀਆਂ ਹਨ। ਭਾਵਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਵਰਤੋਂ ਸੋਸ਼ਲ ਮੀਡੀਆ ਨਿਗਰਾਨੀ, ਬ੍ਰਾਂਡ ਨਿਗਰਾਨੀ, ਗਾਹਕ ਦੀ ਆਵਾਜ਼ (VoC), ਗਾਹਕ ਸੇਵਾ, ਅਤੇ ਮਾਰਕੀਟ ਖੋਜ ਲਈ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ।

ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ NLP ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ (ਨਿਊਰੋ-ਭਾਸ਼ਾਈ ਪ੍ਰੋਗਰਾਮਿੰਗ) ਵਿਧੀਆਂ ਅਤੇ ਐਲਗੋਰਿਦਮ ਜੋ ਜਾਂ ਤਾਂ ਨਿਯਮ-ਆਧਾਰਿਤ, ਹਾਈਬ੍ਰਿਡ ਹਨ, ਜਾਂ ਡੇਟਾਸੇਟਾਂ ਤੋਂ ਡੇਟਾ ਸਿੱਖਣ ਲਈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਤਕਨੀਕਾਂ 'ਤੇ ਨਿਰਭਰ ਹਨ।

ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਲੋੜੀਂਦਾ ਡੇਟਾ ਵਿਸ਼ੇਸ਼ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਲੋੜੀਂਦਾ ਹੈ। ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਬਾਰੇ ਸਭ ਤੋਂ ਚੁਣੌਤੀਪੂਰਨ ਹਿੱਸਾ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਨਹੀਂ ਲੱਭ ਰਿਹਾ ਹੈ; ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਸੰਬੰਧਿਤ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਲੱਭਣਾ ਹੈ। ਇਹਨਾਂ ਡੇਟਾ ਸੈੱਟਾਂ ਵਿੱਚ ਭਾਵਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਖੇਤਰ ਨੂੰ ਕਵਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

10. ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆ

ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਲਗਭਗ 35 ਮਿਲੀਅਨ ਐਮਾਜ਼ਾਨ ਸਮੀਖਿਆਵਾਂ ਹਨ, ਜੋ ਕਿ ਇਕੱਤਰ ਕੀਤੀ ਜਾਣਕਾਰੀ ਦੇ 18 ਸਾਲਾਂ ਦੀ ਮਿਆਦ ਵਿੱਚ ਫੈਲੀਆਂ ਹਨ। ਇਹ ਉਤਪਾਦ, ਉਪਭੋਗਤਾ ਅਤੇ ਸਮੀਖਿਆ ਸਮੱਗਰੀ ਦਾ ਇੱਕ ਡੇਟਾਸੈਟ ਹੈ।

11. ਯੈਲਪ ਸਮੀਖਿਆਵਾਂ

ਯੈਲਪ ਆਪਣੀ ਸੇਵਾ ਤੋਂ ਇਕੱਤਰ ਕੀਤੀ ਜਾਣਕਾਰੀ ਦੇ ਅਧਾਰ ਤੇ ਇੱਕ ਡੇਟਾਸੈਟ ਵੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇੱਥੇ 8 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਸਮੀਖਿਆਵਾਂ, 1 ਮਿਲੀਅਨ ਸੁਝਾਅ, ਅਤੇ ਕਾਰੋਬਾਰਾਂ ਨਾਲ ਸਬੰਧਤ ਲਗਭਗ 1.5 ਮਿਲੀਅਨ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਖੁੱਲਣ ਦਾ ਸਮਾਂ ਅਤੇ ਉਪਲਬਧਤਾ।

12. IMDB ਸਮੀਖਿਆਵਾਂ

ਇਸ ਡੇਟਾਬੇਸ ਵਿੱਚ ਸਿਖਲਾਈ ਲਈ 25 ਹਜ਼ਾਰ ਤੋਂ ਵੱਧ ਫਿਲਮਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਅਤੇ ਆਈਐਮਡੀਬੀ ਪੰਨੇ ਤੋਂ ਗੈਰ ਰਸਮੀ ਤੌਰ 'ਤੇ ਲਏ ਗਏ ਟੈਸਟਾਂ ਲਈ ਹੋਰ 25 ਹਜ਼ਾਰ ਫਿਲਮਾਂ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਹੈ, ਫਿਲਮ ਰੇਟਿੰਗਾਂ ਵਿੱਚ ਵਿਸ਼ੇਸ਼। ਇਹ ਵਾਧੂ ਦੇ ਤੌਰ 'ਤੇ ਬਿਨਾਂ ਲੇਬਲ ਕੀਤੇ ਡੇਟਾ ਦੀ ਵੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

ML ਵਿੱਚ ਪਹਿਲੇ ਕਦਮਾਂ ਲਈ ਡੇਟਾਸੈੱਟ

13. ਵਾਈਨ ਗੁਣਵੱਤਾ ਡਾਟਾਸੈੱਟ

ਇਹ ਡੇਟਾਸੈਟ ਉੱਤਰੀ ਪੁਰਤਗਾਲ ਵਿੱਚ ਪੈਦਾ ਕੀਤੀ ਵਾਈਨ, ਲਾਲ ਅਤੇ ਹਰੇ ਦੋਨਾਂ ਨਾਲ ਸਬੰਧਤ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਟੀਚਾ ਭੌਤਿਕ ਕੈਮੀਕਲ ਟੈਸਟਾਂ ਦੇ ਅਧਾਰ ਤੇ ਵਾਈਨ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਪਰਿਭਾਸ਼ਤ ਕਰਨਾ ਹੈ। ਉਹਨਾਂ ਲਈ ਦਿਲਚਸਪ ਜੋ ਇੱਕ ਭਵਿੱਖਬਾਣੀ ਪ੍ਰਣਾਲੀ ਬਣਾਉਣ ਦਾ ਅਭਿਆਸ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ.

14. ਟਾਇਟੈਨਿਕ ਡਾਟਾਸੈੱਟ

ਇਹ ਡੇਟਾਸੈਟ ਟਾਈਟੈਨਿਕ ਤੋਂ 887 ਅਸਲ ਯਾਤਰੀਆਂ ਦਾ ਡੇਟਾ ਲਿਆਉਂਦਾ ਹੈ, ਹਰੇਕ ਕਾਲਮ ਵਿੱਚ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਕੀ ਉਹ ਬਚ ਗਏ ਹਨ, ਉਨ੍ਹਾਂ ਦੀ ਉਮਰ, ਯਾਤਰੀ ਸ਼੍ਰੇਣੀ, ਲਿੰਗ, ਅਤੇ ਬੋਰਡਿੰਗ ਫੀਸ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਅਦਾ ਕੀਤੀ ਹੈ। ਇਹ ਡੇਟਾਸੈਟ ਕਾਗਲ ਪਲੇਟਫਾਰਮ ਦੁਆਰਾ ਸ਼ੁਰੂ ਕੀਤੀ ਗਈ ਇੱਕ ਚੁਣੌਤੀ ਦਾ ਹਿੱਸਾ ਸੀ, ਜਿਸਦਾ ਉਦੇਸ਼ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਬਣਾਉਣਾ ਸੀ ਜੋ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕੇ ਕਿ ਕਿਹੜੇ ਯਾਤਰੀ ਟਾਇਟੈਨਿਕ ਦੇ ਡੁੱਬਣ ਤੋਂ ਬਚੇ ਹਨ।

ਹੋਰ ਡੇਟਾਸੇਟਸ ਲੱਭਣ ਲਈ ਪਲੇਟਫਾਰਮ

ਜੇ ਤੁਸੀਂ ਹੋਰ ਅੱਗੇ ਜਾਣਾ ਚਾਹੁੰਦੇ ਹੋ ਅਤੇ ਆਪਣਾ ਖੁਦ ਦਾ ਡੇਟਾਸੈਟ ਲੱਭਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਸਭ ਤੋਂ ਮਸ਼ਹੂਰ ਰਿਪੋਜ਼ਟਰੀਆਂ ਨੂੰ ਬ੍ਰਾਊਜ਼ ਕਰਨਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਹੈ। ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਬ੍ਰਹਿਮੰਡ:

ਕਾਗਲ

Kaggle, Google LLC ਦੀ ਇੱਕ ਸਹਾਇਕ ਕੰਪਨੀ, ਡਾਟਾ ਵਿਗਿਆਨੀਆਂ ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਪੇਸ਼ੇਵਰਾਂ ਦਾ ਇੱਕ ਔਨਲਾਈਨ ਭਾਈਚਾਰਾ ਹੈ। Kaggle ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਇੱਕ ਵੈਬ-ਅਧਾਰਿਤ ਡੇਟਾ ਵਿਗਿਆਨ ਵਾਤਾਵਰਣ ਵਿੱਚ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਲੱਭਣ ਅਤੇ ਪ੍ਰਕਾਸ਼ਤ ਕਰਨ, ਖੋਜਣ ਅਤੇ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ; ਹੋਰ ਡਾਟਾ ਵਿਗਿਆਨੀਆਂ ਨਾਲ ਕੰਮ ਕਰੋ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੰਜੀਨੀਅਰ, ਅਤੇ ਡਾਟਾ ਵਿਗਿਆਨ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਮੁਕਾਬਲਿਆਂ ਵਿੱਚ ਹਿੱਸਾ ਲਓ।

ਕਾਗਲ ਨੇ 2010 ਵਿੱਚ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰਤੀਯੋਗਤਾਵਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਕੇ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਅਤੇ ਹੁਣ ਇੱਕ ਜਨਤਕ ਪੇਸ਼ਕਸ਼ ਵੀ ਕਰਦਾ ਹੈ ਡਾਟਾ ਪਲੇਟਫਾਰਮ, ਡੇਟਾ ਸਾਇੰਸ ਅਤੇ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਸਿੱਖਿਆ ਲਈ ਕਲਾਉਡ-ਅਧਾਰਿਤ ਵਰਕਬੈਂਚ।

ਡਾਟਾਸੈਟ ਖੋਜ

ਡੇਟਾਸੇਟ ਖੋਜ ਗੂਗਲ ਦਾ ਇੱਕ ਖੋਜ ਇੰਜਣ ਹੈ ਜੋ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਔਨਲਾਈਨ ਡੇਟਾ ਲੱਭਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਜੋ ਵਰਤੋਂ ਲਈ ਮੁਫ਼ਤ ਵਿੱਚ ਉਪਲਬਧ ਹੈ। ਵੈੱਬ 'ਤੇ, ਤੁਹਾਡੀ ਦਿਲਚਸਪੀ ਵਾਲੇ ਲਗਭਗ ਕਿਸੇ ਵੀ ਵਿਸ਼ੇ ਬਾਰੇ ਲੱਖਾਂ ਡਾਟਾਸੈੱਟ ਹਨ।

ਜੇ ਤੁਸੀਂ ਇੱਕ ਕਤੂਰੇ ਖਰੀਦਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਕਤੂਰੇ ਦੇ ਖਰੀਦਦਾਰਾਂ ਦੀਆਂ ਸ਼ਿਕਾਇਤਾਂ ਜਾਂ ਕਤੂਰੇ ਦੇ ਗਿਆਨ 'ਤੇ ਅਧਿਐਨ ਕਰਨ ਵਾਲੇ ਡੇਟਾਸੇਟਸ ਨੂੰ ਲੱਭ ਸਕਦੇ ਹੋ। ਜਾਂ ਜੇਕਰ ਤੁਸੀਂ ਸਕੀਇੰਗ ਪਸੰਦ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਕੀ ਰਿਜ਼ੋਰਟ ਦੇ ਮਾਲੀਏ ਜਾਂ ਸੱਟ ਦੀਆਂ ਦਰਾਂ ਅਤੇ ਭਾਗੀਦਾਰੀ ਨੰਬਰਾਂ ਬਾਰੇ ਡੇਟਾ ਲੱਭ ਸਕਦੇ ਹੋ। ਡੇਟਾਸੇਟ ਖੋਜ ਨੇ ਇਹਨਾਂ ਵਿੱਚੋਂ ਲਗਭਗ 25 ਮਿਲੀਅਨ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਸੂਚੀਬੱਧ ਕੀਤਾ ਹੈ, ਜਿਸ ਨਾਲ ਤੁਹਾਨੂੰ ਡੇਟਾਸੇਟਾਂ ਦੀ ਖੋਜ ਕਰਨ ਅਤੇ ਡੇਟਾ ਕਿੱਥੇ ਹੈ ਉਸ ਦੇ ਲਿੰਕ ਲੱਭਣ ਲਈ ਇੱਕ ਥਾਂ ਮਿਲਦੀ ਹੈ।

UCI ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਰਿਪੋਜ਼ਟਰੀ

UCI ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਰਿਪੋਜ਼ਟਰੀ ਡੇਟਾਬੇਸ, ਡੋਮੇਨ ਥਿਊਰੀਆਂ, ਅਤੇ ਡਾਟਾ ਜਨਰੇਟਰਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ ਦੁਆਰਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਦੇ ਅਨੁਭਵੀ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ। ਪੁਰਾਲੇਖ ਨੂੰ 1987 ਵਿੱਚ ਡੇਵਿਡ ਆਹਾ ਅਤੇ UC ਇਰਵਿਨ ਵਿਖੇ ਸਾਥੀ ਗ੍ਰੈਜੂਏਟ ਵਿਦਿਆਰਥੀਆਂ ਦੁਆਰਾ ਇੱਕ ftp ਪੁਰਾਲੇਖ ਦੇ ਰੂਪ ਵਿੱਚ ਬਣਾਇਆ ਗਿਆ ਸੀ।

ਉਸ ਸਮੇਂ ਤੋਂ, ਪੂਰੀ ਦੁਨੀਆ ਦੇ ਵਿਦਿਆਰਥੀਆਂ, ਸਿੱਖਿਅਕਾਂ ਅਤੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ML ਡੇਟਾਸੈਟਾਂ ਦੇ ਪ੍ਰਾਇਮਰੀ ਸਰੋਤ ਵਜੋਂ ਇਸਦੀ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੋਂ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ। ਪੁਰਾਲੇਖ ਦੇ ਪ੍ਰਭਾਵ ਦੇ ਸੰਕੇਤ ਵਜੋਂ, ਇਸਨੂੰ 1000 ਤੋਂ ਵੱਧ ਵਾਰ ਹਵਾਲਾ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਸਾਰੇ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨ ਵਿੱਚ ਚੋਟੀ ਦੇ 100 ਸਭ ਤੋਂ ਵੱਧ ਹਵਾਲਾ ਦਿੱਤੇ "ਪੇਪਰਾਂ" ਵਿੱਚੋਂ ਇੱਕ ਹੈ।

ਕਵਾਂਡਲ

Quandl ਇੱਕ ਪਲੇਟਫਾਰਮ ਹੈ ਜੋ ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਆਰਥਿਕ, ਵਿੱਤੀ ਅਤੇ ਵਿਕਲਪਕ ਡੇਟਾਸੈਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਮੁਫਤ ਡਾਟਾ ਡਾਊਨਲੋਡ ਕਰ ਸਕਦੇ ਹਨ, ਭੁਗਤਾਨ ਕੀਤਾ ਡੇਟਾ ਖਰੀਦ ਸਕਦੇ ਹਨ ਜਾਂ ਕਵਾਂਡਲ ਨੂੰ ਡੇਟਾ ਵੇਚ ਸਕਦੇ ਹਨ। ਦੇ ਵਿਕਾਸ ਲਈ ਇੱਕ ਉਪਯੋਗੀ ਸੰਦ ਹੋ ਸਕਦਾ ਹੈ ਵਪਾਰ ਐਲਗੋਰਿਦਮ, ਉਦਾਹਰਣ ਦੇ ਲਈ.

ਸਿੱਟਾ

ਇਹਨਾਂ ਟੂਲਸ ਦੀ ਪੜਚੋਲ ਕਰਕੇ, ਤੁਸੀਂ ਯਕੀਨੀ ਤੌਰ 'ਤੇ ਆਪਣੇ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਵਧੀਆ ਇਨਪੁਟਸ ਲੱਭ ਸਕਦੇ ਹੋ। ਤੁਹਾਡੀਆਂ ਖਾਸ ਲੋੜਾਂ ਲਈ ਸਭ ਤੋਂ ਢੁਕਵਾਂ ਡੇਟਾਸੈਟ ਚੁਣਨਾ ਯਕੀਨੀ ਬਣਾਓ ਅਤੇ ਹਮੇਸ਼ਾ ਧਿਆਨ ਵਿੱਚ ਰੱਖੋ: ਇਹ ਸਿਰਫ਼ ਮਾਤਰਾ ਬਾਰੇ ਨਹੀਂ, ਸਗੋਂ ਗੁਣਵੱਤਾ ਬਾਰੇ ਵੀ ਹੈ। ਡੇਟਾਸੈਟ ਕਿਸੇ ਵੀ ਦਾ ਆਧਾਰ ਹੈ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰੋਜੈਕਟ ਅਤੇ ਨੁਕਸਦਾਰ ਸਿੱਟਿਆਂ 'ਤੇ ਪਹੁੰਚਣ ਦੇ ਜੋਖਮ ਤੋਂ ਬਚਣ ਲਈ ਗੁਣਵੱਤਾ ਡੇਟਾ ਨੂੰ ਬਣਾਉਣਾ ਜ਼ਰੂਰੀ ਹੈ।

ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ 14 ਸਰਵੋਤਮ ਡੇਟਾਸੈੱਟ

ਡੇਟਾਸੇਟਸ ਦੀਆਂ ਮੂਲ ਗੱਲਾਂ