ಟೆಕ್ ಟಾಕ್: ಇದು ಪಾಠ ಕಲಿಸುವ ಡೇಟಾ!
ದತ್ತಾಂಶವನ್ನು ಊಡಿಸುವ ಮೂಲಕ ಯಂತ್ರವೂ ಕಲಿಯುವಂತೆ ಮಾಡಬಹುದು ಎಂದು ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಪರಿಕಲ್ಪನೆ ಹೇಳುತ್ತದೆ. ದತ್ತಾಂಶ ಅಂದರೇನು? ಅದು ಯಂತ್ರದ ಮೇಷ್ಟರಾಗುವುದು ಹೇಗೆ?
ಡೇಟಾ ಅಂದರೆ ಏನು?
ಬಹುತೇಕ ಕೆಲಸಗಳಿಗೆ ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನದ ಸವಲತ್ತುಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುವುದು ಈಗ ಸಾಮಾನ್ಯ. ಇಂತಹ ಸವಲತ್ತುಗಳನ್ನು ಪ್ರತಿಯೊಂದು ಸಾರಿ ಬಳಸಿದಾಗಲೂ ಒಂದಷ್ಟು ವಿವರಗಳು ಸಂಬಂಧಪಟ್ಟ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ದಾಖಲಾಗುತ್ತವೆ - ಗೂಗಲ್ನಲ್ಲಿ ಹುಡುಕಿದ ವಿಷಯ, ಎಟಿಎಂನಲ್ಲಿ ತೆಗೆದ ಹಣದ ಮೊತ್ತ, ಅಂಗಡಿಯಲ್ಲಿ ಖರೀದಿಸಿದ ವಸ್ತುಗಳ ಪಟ್ಟಿ, ನಾವು ಭೇಟಿಕೊಟ್ಟ ಸ್ಥಳಗಳು, ಸಮಾಜಜಾಲದಲ್ಲಿ ಬರೆದ ಸಂದೇಶ... ಹೀಗೆ. ವೈಯಕ್ತಿಕ ಬಳಕೆದಾರರಿಂದ ಪ್ರಾರಂಭಿಸಿ ದೊಡ್ಡ ಸಂಸ್ಥೆಗಳು ಹಾಗೂ ಸರಕಾರಗಳವರೆಗೆ ಪ್ರತಿಯೊಬ್ಬರೂ ಇಂತಹ ವಿವರಗಳ ಸೃಷ್ಟಿ ಇಲ್ಲವೇ ಬಳಕೆಯಲ್ಲಿ ತೊಡಗಿರುತ್ತಾರೆ.
ಈ ವಿವರಗಳನ್ನೆಲ್ಲ ಕಂಪ್ಯೂಟರಿನಲ್ಲಿ ಸಂಸ್ಕರಿಸಲು ಸಾಧ್ಯವಾಗುವ ರೂಪದಲ್ಲಿ ಉಳಿಸಿಟ್ಟು ಅಗತ್ಯಕ್ಕೆ ತಕ್ಕಂತೆ ಬಳಸಿಕೊಳ್ಳಲಾಗುತ್ತದೆ. ಐಟಿ ಭಾಷೆಯಲ್ಲಿ ಡೇಟಾ ಎಂದು ಕರೆಯುವುದು ಈ ವಿವರಗಳನ್ನೇ. ಇದನ್ನು ಕನ್ನಡದಲ್ಲಿ ದತ್ತಾಂಶ ಎಂದು ಕರೆಯುತ್ತಾರೆ. ಇಂದಿನ ಜಗತ್ತಿನಲ್ಲಿ ಅನೇಕ ಕೆಲಸಗಳು ದತ್ತಾಂಶದ ಮೇಲೆಯೇ ಆಧಾರಿತವಾಗಿರುತ್ತವೆ: ಯಾವ ಜಾಹೀರಾತನ್ನು ಯಾರಿಗೆ ತೋರಿಸಬೇಕು ಎನ್ನುವುದರಿಂದ ಪ್ರಾರಂಭಿಸಿ ಯಾವ ಉತ್ಪನ್ನವನ್ನು ಎಷ್ಟು ಪ್ರಮಾಣದಲ್ಲಿ ತಯಾರಿಸಬೇಕು, ಎಲ್ಲಿಗೆ ಸರಬರಾಜು ಮಾಡಬೇಕು ಎನ್ನುವವರೆಗೆ ಅದೆಷ್ಟೋ ನಿರ್ಧಾರಗಳನ್ನು ಕೈಗೊಳ್ಳುವಲ್ಲಿ ದತ್ತಾಂಶ ಮಹತ್ವದ ಪಾತ್ರ ವಹಿಸುತ್ತದೆ.
ಇಂತಹ ದತ್ತಾಂಶ ಹಲವು ಬಗೆಯದಾಗಿರುವುದು ಸಾಧ್ಯ. ಉದಾಹರಣೆಗೆ, ಬ್ಯಾಂಕಿನ ವಹಿವಾಟುಗಳ ಬಗ್ಗೆ ಸಂಗ್ರಹಿಸಲಾಗುವ ದತ್ತಾಂಶ ಒಂದು ನಿರ್ದಿಷ್ಟ ಸ್ವರೂಪದಲ್ಲಿರುತ್ತದೆ. ಪ್ರತಿಯೊಂದು ವಹಿವಾಟಿಗೂ ಸಂಬಂಧಿಸಿದಂತೆ ಇಂತಿಷ್ಟು ವಿವರಗಳನ್ನು ಹೀಗೆಯೇ ಉಳಿಸಿಡಬೇಕು ಎಂಬ ನಿಯಮ ಅಲ್ಲಿರುತ್ತದೆ. ಇದು ‘ಸ್ಟ್ರಕ್ಚರ್ಡ್ ಡೇಟಾ'ದ ಉದಾಹರಣೆ. ಇನ್ನೊಂದು ಉದಾಹರಣೆ ನೋಡುವುದಾದರೆ, ಸಮಾಜಜಾಲಗಳಲ್ಲಿ ನಾವು ಪ್ರಕಟಿಸುವ ಸಂದೇಶಗಳಿಗೆ ಇಷ್ಟೆಲ್ಲ ವಿವರವಾದ ಯಾವ ರಚನಾ-ಕ್ರಮಗಳೂ ಅನ್ವಯಿಸುವುದಿಲ್ಲ. ಅಲ್ಲಿ ಯಾವುದೇ ವಿವರ ಯಾವ ಸ್ವರೂಪದಲ್ಲಿ ಬೇಕಾದರೂ ಇರಬಹುದು. ಅದು ‘ಅನ್ಸ್ಟ್ರಕ್ಚರ್ಡ್ ಡೇಟಾ'.
ಅದು ಬಿಗ್ ಡೇಟಾ ಎಂದು ಕರೆಸಿಕೊಳ್ಳುವುದು ಯಾವಾಗ?
ಸಮಾಜಜಾಲದ ಸಂದೇಶ, ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ವಹಿವಾಟು, ರೋಗಿಗಳ ಆರೋಗ್ಯದ ವಿವರ, ಯಂತ್ರಗಳ ಕಾರ್ಯಾಚರಣೆಯ ಸ್ಥಿತಿಗತಿ ಸೇರಿದಂತೆ ಯಾವುದು ಬೇಕಾದರೂ ದತ್ತಾಂಶದ ಆಕರವಾಗಿರುವುದು ಸಾಧ್ಯ. ಇಂತಹ ಅನೇಕ ಉದಾಹರಣೆಗಳ ಹೂರಣ ಬಹಳ ವೈವಿಧ್ಯಮಯವಾಗಿರುತ್ತದೆ (ವೆರೈಟಿ). ಅಷ್ಟೇ ಅಲ್ಲ, ಅವುಗಳ ಪ್ರಮಾಣ (ವಾಲ್ಯೂಮ್) ಹಾಗೂ ಅವು ಸೃಷ್ಟಿಯಾಗುವ ವೇಗ (ವೆಲಾಸಿಟಿ) ಕೂಡ ಅಗಾಧವಾಗಿರುತ್ತದೆ. ದತ್ತಾಂಶದ ಈ ದೊಡ್ಡ ರಾಶಿಗಳನ್ನು ಸರಿಯಾಗಿ ಸಂಸ್ಕರಿಸಿ ವಿಶ್ಲೇಷಿಸಿದರೆ ಅವು ವಿವಿಧ ವಿಷಯಗಳ ಬಗ್ಗೆ ಅಮೂಲ್ಯ ಒಳನೋಟಗಳನ್ನು ನೀಡಬಲ್ಲವು. ‘ಬಿಗ್ ಡೇಟಾ' ಎಂದು ಗುರುತಿಸುವುದು ಈ ರಾಶಿಗಳನ್ನೇ.
ಬಿಗ್ ಡೇಟಾ ನಿರ್ದಿಷ್ಟ ಸ್ವರೂಪದಲ್ಲಿರಬಹುದು, ಯಾವುದೇ ರಚನಾ-ಕ್ರಮಗಳನ್ನು ಅನುಸರಿಸದೆ ಇರಬಹುದು, ಅಥವಾ ಕೆಲವು ನಿಯಮಗಳನ್ನು ಸ್ಥೂಲವಾಗಿ ಅನುಸರಿಸುತ್ತಿರಬಹುದು (‘ಸೆಮಿ-ಸ್ಟ್ರಕ್ಚರ್ಡ್ ಡೇಟಾ'). ಇಂತಹ ಯಾವ ವಿಧದ್ದೇ ಆದರೂ ತನ್ನ ಅಗಾಧ ಪ್ರಮಾಣದಿಂದಾಗಿ ಬಿಗ್ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಿ ಸಂಸ್ಕರಿಸಲು ಅತ್ಯಂತ ವೇಗವಾಗಿ ಕೆಲಸಮಾಡುವ, ಸಮರ್ಥವಾದ ಹಾಗೂ ಹೆಚ್ಚು ದುಬಾರಿಯಲ್ಲದ ಮಾರ್ಗಗಳನ್ನು ಬಳಸಬೇಕಾಗುತ್ತದೆ. ಹೀಗಾಗಿಯೇ ಬಿಗ್ ಡೇಟಾ ಸಂಗ್ರಹ ಹಾಗೂ ಸಂಸ್ಕರಣೆಗಾಗಿ, ಸಾಮಾನ್ಯ ದತ್ತಾಂಶದ ಸಂಸ್ಕರಣೆಗೆ ಬಳಸುವುದಕ್ಕಿಂತ ಬೇರೆಯದೇ ಆದ ತಂತ್ರಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.
ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಹಾಗೂ ಬಿಗ್ ಡೇಟಾ ನಡುವಿನ ಸಂಬಂಧವೇನು?
ಇಂತಹ ಕೆಲಸವನ್ನು ಇಂಥದೇ ವಿಧಾನದಲ್ಲೇ ಮಾಡಬೇಕು ಎಂಬ ನಿರ್ದೇಶನ ಅಪೇಕ್ಷಿಸುವ ಬದಲು, ತಾನೇನು ಮಾಡಬೇಕು ಎನ್ನುವುದನ್ನು ದತ್ತಾಂಶದ ನೆರವಿನಿಂದ ಸ್ವತಃ ಯಂತ್ರವೇ ಕಲಿತುಕೊಳ್ಳುವುದನ್ನು ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಪರಿಕಲ್ಪನೆ ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ. ಹೀಗೆ ಕಲಿಸಲು ಬಳಸುವ ದತ್ತಾಂಶದ ಪ್ರಮಾಣ ಜಾಸ್ತಿಯಿದ್ದಷ್ಟೂ ಕಲಿಕೆಯ ನಿಖರತೆ ಹೆಚ್ಚು. ಸಮರ್ಥವಾದ ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಆಲ್ಗರಿದಮ್ಗಳ ಜೊತೆಗೆ ಉತ್ತಮ ಗುಣಮಟ್ಟದ, ದೊಡ್ಡ ಪ್ರಮಾಣದ ದತ್ತಾಂಶವೂ ಸೇರಿದರೆ ಯಂತ್ರಗಳು ತಮ್ಮ ಪಾಠವನ್ನು ಬಹಳ ಚೆನ್ನಾಗಿ ಕಲಿಯಬಲ್ಲವು. ಹೀಗಾಗಿಯೇ ಮಶೀನ್ ಲರ್ನಿಂಗ್ನಲ್ಲಿ ದತ್ತಾಂಶದ ಪಾತ್ರ ಮಹತ್ವದ್ದು.
ಹಾಗೆಂದು ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಪರಿಣಾಮಕಾರಿಯಾಗಬೇಕಾದರೆ ನಾವು ಬಿಗ್ ಡೇಟಾವನ್ನೇ ಬಳಸಬೇಕು ಎಂದೇನೂ ಇಲ್ಲ. ಕಲಿಕೆಗಾಗಿ ಬಳಸಬೇಕಾದ ದತ್ತಾಂಶದ ಪ್ರಮಾಣ ಅದರ ಉದ್ದೇಶ ಹಾಗೂ ಉಪಯೋಗಗಳನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಆದರೆ ಬಿಗ್ ಡೇಟಾವನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಬಳಸಲು ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಬೇಕಾಗುತ್ತದೆ. ಸಾವಿರಗಟ್ಟಲೆ ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ವಹಿವಾಟುಗಳನ್ನು, ಅದರಲ್ಲಿ ನಡೆದ ವಂಚನೆಗಳ ವಿವರವನ್ನು ಯಂತ್ರಕ್ಕೆ ಊಡಿಸಿ ಕಲಿಸಿದರೆ ಅದು ಮುಂದೆ ನೂರಾರು ಪಟ್ಟು ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ವಹಿವಾಟುಗಳನ್ನು ಥಟ್ಟನೆ ಪರೀಕ್ಷಿಸಿ ಸಂಭಾವ್ಯ ವಂಚನೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಶಕ್ತವಾಗುತ್ತದೆ.
ಇದೇ ರೀತಿ ವಿಮಾಸಂಸ್ಥೆಗೆ ಬರುವ ಅರ್ಜಿಗಳನ್ನು ಪರಿಶೀಲಿಸಿ ಇರಬಹುದಾದ ಮೋಸವನ್ನು ಗುರುತಿಸುವುದು, ಈವರೆಗಿನ ಆರೋಗ್ಯ ಗಮನಿಸಿಕೊಂಡು ಮುಂದೆ ಬರಬಹುದಾದ ಸಮಸ್ಯೆಗಳನ್ನು ಊಹಿಸುವುದು, ಯಂತ್ರಗಳ ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿ ಅಡಚಣೆ ಎಲ್ಲಿ ಬರಬಹುದೆಂದು ಅಂದಾಜಿಸಿ ಸೂಕ್ತ ಮುನ್ನೆಚ್ಚರಿಕೆ ತೆಗೆದುಕೊಳ್ಳುವುದು, ಸಮಾಜಜಾಲದ ಸಂದೇಶಗಳನ್ನು ಗಮನಿಸಿ ಅಲ್ಲಿನ ಪ್ರವೃತ್ತಿಯನ್ನು ಗುರುತಿಸುವುದು - ಹೀಗೆ ಬಿಗ್ ಡೇಟಾ ಬಳಸಿ ಹಲವು ಉಪಯುಕ್ತ ಕೆಲಸಗಳನ್ನು ಮಾಡಿಕೊಳ್ಳುವಲ್ಲಿ ಮಶೀನ್ ಲರ್ನಿಂಗ್ ಸಹಾಯ ಪಡೆದುಕೊಳ್ಳುವುದು ಸಾಧ್ಯ. ಈ ನಿಟ್ಟಿನಲ್ಲಿ ಸಾಕಷ್ಟು ಕೆಲಸ ಈಗಾಗಲೇ ನಡೆದಿದೆ.