ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. K-means
عواملی چون سن، جنسیت، سطح تحصیلات راننده، نوع اتومبیل، محل اقامت و… خوشه بندی کرد؛سپس، با استفاده از درخت تصمیم، اهمیت هر یک از این عوامل را در ایجاد خسارت نشان داد.
نیوستد و دی الیا (2007) در پژوهشی با استفاده از روش رگرسـیون و در نظـر گـرفتن توزیـعپواسون، رابطه بین رنگ اتومبیل و احتمال خسـارت را بررسـی کرد نـد . بـدین منظـور ، دو ایالـتاسترالیا به عنوان نمونه برای جمع آوری داده ها انتخاب شدند. به طور کلی، آنها نتیجه گرفتنـد کـههنگام روز رنگ های مشکی، نوک مدادی و نقره ای، هنگام غروب رنـگ مشـکی و هنگـام شـبرنگ قرمز پرخطرترین رنگ ها محسوب می شوند. آنها نشان دادند بین رنـگ اتومبیـل و احتمـالخسارت رابطه انکارنشدنی وجود دارد.
پارنیتزکه (2008) سیستم نرخ گذاری بیمه در آمریکـا را بررسـی کـرد. وی در ایـن پـژوهش سیستمی را با عنوان امتیازدهی بیمه1 که در بیشتر ایالت های آمریکا استفاده می شود، تفسیر کرد.
در این سیستم بر اساس سوابق اعتباریِ بیمهگذاران به آنها امتیازهایی داده میشود که در تعیـیننرخ حق بیمه مؤثر است. طبق این سیستم، بیمهگذاری که سابقه اعتباری خوبی نـدارد، بـه طـورمثال قسط وام های خود را به موقع پرداخت نمی کند، فردی بی احتیاط در نظر گرفته میشود کـهاحتمال رانندگی نامطمئن و وقوع خسارت برای او بیشتر است. وی این سیستم را با سیستم هـایرایج محاسبه نرخ در آلمان مقایسه کرد و رویکرد ترکیبی از هر دو روش را برای پیـادهسـازی درنظام بیمه اتومبیل آلمان پیشنهاد داد.
از تحقیقات انجامشده در کشور نیز میتوان به پژوهش چوبـدار (1387) اشـاره کـرد کـه بـا در نظرگرفتن متغیرهایی نظیر سن و جنسیت راننده، نوع و کـاربری اتومبیـل و… و بـا اسـتفاده ازتکنیک درخت تصمیم، بیمهگذاران بدنه اتومبیل و پیش بینی طبقه خسارتی آنها را شناسایی کرد.
دقت پیش بینی مدل به کاررفته در این پژوهش بهمیزان 75 درصد ب هدست آمد و قابل قبول بود.
عنبری، نادعلی و اسلامی نصرتآبادی (1389) در پژوهشی با در نظر گـرفتن مشخصـه هـای بیمهگذار مانند سن و جنسیت او، در کنار مشخصه های اتومبیل مانند کاربری و سن آن، چند مدل (درخت تصمیم، شبکههای عصبی، شبکههای بیزین، ماشین بردار پشتیبان، رگرسیون لجسـتیک،تحلیل تمایزی) را به منظور پیش بینی طبقه خسارتی بیمه گذاران مقایسه کردند و به دسـتهبنـدیآنها در سه طبقه کم ریسک، ریسک متوسط و پر ریسک پرداختند. طبق نتایج این پژوهش، مـدلدرخت تصمیم بیشترین دقت را در پیش بینی داشت و با دقت 68 درصد توانست طبقـه خسـارتیبیمه گذاران را پیشبینی کند.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Insurance Scoring
در پژوهشـی مش ابه ح اجی حی دری، خال ه و فراه ی (1390) ب ا در نظ ر گ رفتن همزم انمشخصه های بیمه گذار و اتومبیل، چند مدل (درخت تصمیم، شبکه های عصبی، شبکه های بیزین، ماشین بردار پشتیبان، رگرسیون لجستیک، تحلیل تمایزی) را به منظور پیش بینی طبقـ ه خسـارتیبیمه گذاران مقایسه کردند. طبق نتایج این پژوهش، مدل های شبکههای عصبی و درخت تصمیم با حدود 82 درصد، بیشترین دقت را در پیش بینی داشتند.
حنفی زاده و رستخیز پایدار (1390) ابتدا عوامل مؤثر بر ایجاد خسارت در بدنـ ه اتومبیـل را در ایران بررسی کردند. پس از مشخصشدن عوامل با استفاده از شبکههای عصبی خود سازمانده، به خوشه بندی بیمه گذاران بر اساس ریسک بالقوه آنها پرداختند.
در پژوهشی دیگر، فتحنژاد و ایزدپرست (1390) با استفاده از تکنیک خوشهبندی کـ اـ مینـز ودرخت تصمیم و با درنظر گرفتن متغیرهای جمعیتشناختی نظیر سـن، جنسـیت، شـغل، وضـعیتتأهل راننده و متغیرهای مربوط به اتومبیل نظیر نوع، سال ساخت، کاربری و ظرفیت اتومبیل و…
بیمه گذاران را خوشه بندی کردند و نتیجه گرفتند علاوهبر مشخصات اتومبیل، مشخصات رفتـاریمشتری نیز در پیش بینی سطح خسـارت مشـتریان بیمـه بدنـه اتومبیـل تأثیرگـذار اسـت. دقـتمدل های استفاده شده در این پژوهش حدود 60 درصد بوده است.
روش شناسی پژوهش
پژوهش حاضر به لحاظ هدف کاربردی است؛ زیرا مدل ارائه شده در این پژوهش راهکارهایی برای بهبود نرخ گذاری حق بیمه بدنه اتومبیل و به طور کلی بهبود عملکرد شرکت های بیمـه ، پـیش رو می گذارد. از آنجا که به منظور شناخت رفتار بین متغیرها به توصـیف و تحلیـل روابـط بـین آنهـاپرداخته شده است، از دید ماهیت و روش توصـیف ی ـ همبسـتگی اسـت. روش و ابـزار گـردآوریاطلاعات در این پژوهش به واسطه بررسی پیشینه پژوهش و استفاده از داده های ثانویه و مطالعـ ه مقاله ها، کتاب ها و پایان نامه های خارجی و داخلی مرتبط، کتابخانه ای است.
ابتدا عوامل اثرگذار بر ریسک مشتریان بیمه بدنه اتومبیل از طریق بررسی پیشـین ه پـژوهششناسایی شدند و در سه دسته کلی مشخصات بیمه گذار، اتومبیل و بیمه نامه قرار گرفتند؛ سـپس ، از طریق مشورت با چند نفر از خبرگان صنعت بیمه و مطابقت دادن این عوامل با داده های موجود در پایگاه داده های شرکت مد نظر، عوامل نهایی ریسک انتخاب شدند. در گام بعد بـا اسـتفاده ازالگوریتم شبکه های عصبی مدلی ارائه شد که به وسیله آن می توان طبقه خسارتی بیمـه گـذاران ومیزان خسارت بالقوه آنان را پیش بینی کرد. چنین مدلی می توانـد در سیاسـت گـذاری هـای آتـیشرکت های بیمه به کار گرفته شود. شرکت های بیمه می توانند با استفاده از نتایج این داده کـاوی ، میزان حق بیمه دریافتی از بیمه گذاران مختلف را تعدیل کنند و با ایجاد سیستم نرخ گذاری مبتنیبر ریسک بیمه گذاران، میزان رضایت آنها را افزایش داده و سودآوری خود را ارتقا دهند.
شبکه های عصبی مصنوعی
بر اساس تحقیق ان گایی، ژیو و چاو (2009) مشخص شـد کـه از بـین 34 تکنیـک داده کـاوی،شبکه های عصبی بیشترین و مؤثرترین کاربرد را داشته است. برتری شبکه های عصبی نسبت بـهروش های دیگر این است که می تواند از وقایع گذشته بیاموزد و با گذشت زمـان نتـایج را بهبـوددهد. همچنین می تواند ضمن استخراج قوانین، رفتار آینده را بر اساس وضعیت فعلـی پـیش بینـیکند (وثوق، تقوی فرد و البرزی، 1393). این شبکهها بـا اسـتفاده از مجموعـه ورودی و خروجـی ، روابط بین آنها را پیش بینی می کنند و به اصطلاح آموزش میبینند؛ به گونه ای که پس از آمـوزش ، به ازای یک عضو جدید از مجموعه ورودی، خروجی متناظر آن را تقریب می زنند.
شایان ذکر است که مدل شبکه های عصبی معماری های مختلفی دارد که معروف تـرین آنهـاعبارت اند از پرسپترون1، پرسپترون چندلایه2، تابع پایه شعاعی3 و ماشـینهـای بـردار پشـتیبان4.
شبکههای پرسپترون چندلایه با الگوریتم پس انتشار خطا تا چندین سال پرطرفـدارترین معمـاری شبکههای عصبی بود (مؤمنی، 1385)، اما طی سال های اخیر با حجیم ترشدن پایگاههـای داده و پیچیده ترشدن ساختار آنها، معماری های جدیدی از شبکه های عصبی نظیر تـابع پایـه شـعاعی وماشین های بردار پشتیبان ارائه شدند که در برخی موارد نیز توانستند عملکرد بهتـری نسـبت بـهپرسپترون چندلایه داشته باشند. هریک از معماری های شبکه های عصبی عیب ها و مزیـت هـای ی دارد و نمی توان در مجموع یک معماری را بهتر از بقیه دانست؛ بهطور مثال، ماشـین هـای بـردارپشتیبان، اغلب قدرت پیش بینی بهتری نسبت به سایر معماری ها نشان می دهند، اما آموزش آن هـا کمابیش زمان بر است و انتخاب معیارهایی نظیر کرنل5 یـا حاشـیه اطمینـان بـرای ساختارشـان، استفاده از آنها را نسبتاً مشکل میکند. بهطور کلی، می توان گفت که برای داده هایی کـه سـاختاربسیار پیچیده، ابعاد گسترده و اختلال فراوان دارند، بهتر اسـت از معمـاری هـای جدیـد یـا حتـیترکیبی استفاده کرد و برای دادههایی با ساختار نهچندان پیچیده و اختلال کمتر، به منظور راحتـیکار و استفاده بهینه از زمان، از معماریهای سنتی نظیر پرسپترون چندلایه بهره برد (گانتی، پاول
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Perceptron
Multi Layer Perceptron (MLP)
Radial Basis Function (RBF)
Support Vector Machines (SVMs)
Kernel
و پال، 2009). در این تحقیق، به دلیل ساختار نه چندان پیچیده و اختلالات نه چندان زیاد داده هـا ،از شبکه های پرسپترون چندلایه با آموزش شبکه پس انتشار خطا از نوع تـابع سـیگموئید اسـتفادهشده است.
تعریف متغیرها
در مرحله نخست همه متغیرهای اثرگذار بر وقـوع خسـارت از طریـق مطالعـه پیشـینه تحقیـق، شناسایی شدند؛ سپس، طی مشورت با چند نفر از خبرگـان صـنعت بیمـه و نظرخـواهی از آنـان، متغیرهایی نظیر نوع گواهی نامه، سرعت رانندگی، ظرفیت موتور، نوع پرداخت حق بیمه و… حذف شدند. در مرحله بعد متغیرهای باقی مانده در سه دسـته قـرار گرفتنـد. مشخصـه هـای نهـایی درجـدول 1 آورده شده است.
جدول 1. عوامل نهایی انتخاب شده پس از مشورت با خبرگان

سن، جنسیت، وضعیت تأهل، شهر محل زندگی، سـال اخـذ گـواهی نامـه (سـابقه راننـدگیراننده)، میزان تحصیلات، میزان درآمد، شغل، تعداد ادعای خسـارت در سـال قبـل، فاصـلهمحل کار تا محل زندگی مشخصات بیمه گذار
نوع، رنگ، سال ساخت، تجهیزات ایمنی (ABS)، میزان کارکرد به کیلومتر، کاربری، گروه، نوع پلاک، تعداد سیلندر، نوع تیپ، ارزش روز مشخصات اتومبیل
میزان پوشش بیمهای مشخصات بیمه نامه

جمع آوری داده ها
در این پژوهش از داده های موجود در پایگاه داد ه بیمه بدنه اتومبیل یکـی از شـرکت هـای بیمـه داخلی (بیمه آسیا) استفاده شد. این دادهها شامل دادههای مربوط به بیمهنامه بیمـه گـذاران بدنـه اتومبیل است که تعدادی از آنها دچار حادثه شده اند و خسارت دیدهاند. از آنجا کـه شـرکت بیمـه آسیا از سال 1389 سیستم جدیدی را برای پایگاه داده هایش به کار برده اسـت، جامعـه آمـاری را 733875 داده مربوط به بیمه نامههای بدنه اتومبیل که طی سـال هـای 1389 تـا سـه ماهـه اول
1391، شرکت بیمه آسیا برای آنها بیمهنامه صادر کـرده اسـت و بخشـی از آنهـا دچـار خسـارتشده اند، در نظر میگیریم.

پیش پردازش داده ها
پیش پردازش داده ها از گامهای مهم فرایند دادهکاوی است که میزان دقت نتایج به دست آمـده تـاحد زیادی به اجرای درست آن بستگی دارد؛ بدینمنظـور دو اقـدام مهـم کـاهش داده و اعمـالتغییرات در شکل داده ها روی آنها انجام گرفت. ابتدا 9 متغیر از متغیرهای نهایی، شامل سال اخذ گواهی نامه، شغل، میزان تحصیلات، میزان درآمد و فاصله محل کار تا محل زندگی از مشخصات بیمه گذار؛ تجهیزات ایمنی، میزان کارکرد به کیلومتر و نوع تیپ از مشخصـات اتومبیـل و میـزانپوشش بیمه ای از مشخصات بیمه نامه، به دلیل موجود نبودن اطلاعـات در پایگـاه داده، از بررسـی خارج شدند. همچنین بعضی از متغیرهای موجود در پایگاه داده مانند کد ملـی، کـد پسـتی و نـامبیمه گذاران، شماره بیمه نامه و… به دلیل یکتا بودن برای هر یک از بیمه گذاران و بی ارتباط بودن بـا هدف پژوهش حذف شدند. با توجه به اینکه فراوانی هفت نـوع خـودروی پرایـد، پـژو 405، پـژو206، سمند، کامیون، وانت و پژو پارس با سایر انواع خودروهای بیمه شده در این شـرکت تفـاوتچشمگیری داشتند، تنها به تجزیه و تحلیل این هفت نوع خودرو پرداخته شد.
در خصوص نوع پلاک، کاربری و گروه اتومبیل نیز مـواردی کـه فراوانـی بیشـتری داشـتندحفظ شده و باقی حذف شدند. همچنین اتومبیل های تولید شده در 16 سال اخیر، به دلیـل فراوانـیبیشتر بررسی شدند. از آنجا که تنوع رنگ در اتومبیل ها زیاد بود، اتومبیل ها از روی رنگ در چنـدطبقه کلی تر دسته بندی شدند. به طور مثال، رنگ های آلبالویی، جگری، عنابی و… در گـروه رنـگقرمز قرار داده شدند. داده های باقی مانده کیفیت لازم و صلاحیت ورود به مدل نهایی را نداشتند؛ به همین دلیل معیوب بودن داده ها از دو جنبه مطالعه شـد؛ ابتـدا خطاهـای اپراتـور در وارد کـردنداده ها بررسی شد، بدینمعنا که بعضی متغیرها مقادیر نامناسب و نامربوط داشتند. به طور مثال، در بعضی رکوردها سال تولید خودرو اعداد پنج رقمی یا سه رقمی وارد شده بود کـه امکـان اصـلاح وحدس زدن مقدار صحیح وجود نداشت و رکورد آن حذف شد، یا اینکه تعداد سیلندر برای خودروی سمند عدد 8 درج شده بود که با مقدار 4 جایگزین شد. همچنین در بعضی رکوردها با توجه به نام بیمه گذار، جنسیت بعضی از بیمهگذاران اشتباه وارد شده بود که تا حـد امکـان تصـحیح شـدند و اقداماتی از این قبیل در مرحله اول روی داده ها انجـام گرفـت . در جنبـه دوم ، رکوردهـا از لحـاظ وجود دادههای نامرتبط بررسی شدند؛ بدین صورت که برای بعضی از متغیرها مقادیر نامرتبط وارد شده بود. به طور مثال، برای نوع خودرو یا نوع استفاده آن مقادیر عددی اختصاص یافته بـود . بـراین اساس، تا حد امکان سعی شد رکوردهای معیوب طی مشورت با متصدیان بیمه و با توجه بـهمتغیرهای مرتبط دیگر اصلاح شود، به طور کلی رکوردهایی که امکان اصلاح دادههای معیوبشان وجود نداشت، حذف شدند.
یادآوری می شود که با استفاده از فیلد شهر محل سکونت بیمه گذاران، جمعیـت هـر یـک ازاین شهرها از نتایج رسمی سرشماری عمومی نفوس و مسکن سال 1390 استخراج شد. سـپس، شهرها براساس جمعیت به سه گروه کم جمعیت، متوسط و پر جمعیت دستهبندی شدند. شهرهایی که کمتر از صدهزار نفر جمعیت داشتند، شهرهای کمجمعیت؛ بین صد هزار تا یـک میلیـون نفـرشهرهای متوسط و شهرهایی که بیشتر از یک میلیون نفر جمعیت داشتند، شهرهای پرجمعیت در نظر گرفته شدند.
انتخاب مشخصه1
در این قسمت با استفاده از امکان انتخاب مشخصه در کلمنتاین، صلاحیت متغیرها برای ورود به مدل و در صورت امکان کاهش ابعـاد آنهـا بررسـی شـد . شـکل 2 نشـان دهنـده نتـایج انتخـابمشخصه ها برای متغیر هدف مرحله نخست، یعنی طبقه بندی خسارتی بیمه گذاران است که طبق آن همه متغیرهای انتخاب شده صلاحیت لازم برای پیش بینی طبقه خسارتی را دارنـد، وابسـتگیخاصی به یکدیگر ندارند و ورودشان به مدل بلامانع است.

شکل 2. نتیجه انتخاب مشخصه برای متغیرها در پیش بینی طبقه خسارتی

همچنین شکل 3 نشاندهنده نتایج انتخاب مشخصه ها برای مرحله دوم و پیش بینـی میـزانخسارت بیمهگذاران بهعنوان متغیر هدف است. در این قسمت نیز همه متغیرهـای انتخـاب شـدهصلاحیت لازم برای پیش بینی میزان خسارت ر ا داشتند، وابستگی خاصی به یکـدیگر نداشـتند و ورودشان به مدل مانعی نداشت.
خلاصه ای از عملیات پیش پردازش انجام شده در جدول 2 آورده شده است.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Feature Selection

شکل 3. نتیجه انتخاب مشخصه برای متغیرها در پیش بینی میزان خسارت

جدول 2. خلاصه ای از عملیات پیش پردازش روی داده ها
مثال عملیات پیشپردازش انجامشده نوع داده
حذف متغیرهایی مانند شـمار ه ملـی، شـماره پلاک و کد پستی حذف داده ها داده های نامرتبط، بیمعنا وخاص
حذف متغیرهایی مانند میزان درآمـد، میـزانتحصیلات و شغل حذف داده ها داده های اضافی یا ناموجود درپایگاه داده
انتخاب هفت نوع خـودرو بـا فراوانـی بیشـترمیان انواع خودرو کاهش داده ها فراوانی داده ها
گ روهبندی رنگ های مشـابه ماننـد آلبـالویی،عنابی، جگری در گروه کلـی رنـگ قرمـز، وگروه بندی جمعیتی شهرهای بیمه گذاران کاهش ابعاد داده ها گستردگی مقادیر داده ها
جای گذاری عدد 4 به جای عدد 8 برای تعداد سیلندر خودروی سمند در صــورت امکــان تصــحیح از طریــقمشورت بـا متصـدیان یـا دانسـتههـایپیشین محقق، در غیر این صورت حذف داده های دارای اختلال، برون هشته یا خطای اپراتور
جای گذاری تعداد سـیلندر بـا توجـه بـه نـوعخودروها، یا حذف داده در صورت خالی بـودنفیلد رنگ در صــورت امکــان تصــحیح از طریــقمشورت با متصدیان یا مقـدار دادههـایمشابه، در غیر این صورت حذف داده های مفقود

در نهایت، پس از پالایش، پیش پردازش و انتخاب مشخصه ها، 24370 داده شامل 13 متغیـرمستقل و وابسته طبقه خسارتی در مرحله اول و میزان خسارت در مرحله دوم به عنوان ورودی هـاو خروجی های مدل انتخاب شدند. در جدول 3 تغییرات نهایی اعمال شده، نوع متغیرهای مسـتقلبه کار رفته در مدل و مقادیر هریک آورده شده است. همچنین در شکل 4 مدل شبکههای عصبی به کار رفته در این پژوهش نشان داده شده است.

جدول 3. متغیرهای به کار رفته در مدل به همراه مقادیر هریک
مقادیر متغیر نام متغیر در مدل متغیر

از 19 تا 91 سال Age سن بیمه

مشخصات

گذار

بیمه

مشخصات

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

  • 1

پاسخ دهید