Boğaz'da Yapay Öğrenme
İsmail Arı Yaz Okulu 2018

Konuşma, Dil İşleme ve Biyoenformatik
2-5 Temmuz 2018, Bebek, İstanbul

HAKKINDA

Boğaz'da Yapay Öğrenme İsmail Arı Yaz Okulu 2018


2 Temmuz 2018 Pazartesi - 5 Temmuz 2018 Perşembe

Bu yıl, 2-5 Temmuz tarihlerinde İstanbul’da düzenlenecek olan Boğaz'da Yapay Öğrenme İsmail Arı Yaz Okulu 2018 adlı lisansüstü yaz okulunu duyurmaktan mutluluk duymaktayız. Bu Yaz Okulu, Bilim Akademisi şemsiyesi altında, Boğaziçi Üniversitesi tarafından gerçekleştirilmektedir.

Yaz okullarının ilki 2016 yılında ODTÜ’de 230 kişinin katılımı ile bilgisayarla görme ve derin öğrenme teması üzerinde düzenlenmiş, ikincisi ise geçtiğimiz yıl Hacettepe Üniversitesinde robotik ve yapay öğrenme odaklı olarak Bozkırda Yapay Öğrenme Yaz Okulu 2017 adıyla yapılmıştır. Bu dizinin devamı olarak önümüzdeki yılki yaz okulu temaları biyoenformatik, doğal dil ve konuşma işlemede yapay öğrenme olarak belirlenmiştir. Boğazda Yapay Öğrenme Yaz Okuluna, 2013 yılında kaybettiğimiz Boğaziçi Üniversitesi doktora öğrencisi İsmail Arı'nın adı verilmiştir.

Yaz okulunun amacı, bu alanlarda araştırma yapmak için gerekli olan temel bilgileri tazelemek, son araştırma gelişmeler hakkında bilgilendirmek, tez ve proje konularını tartışmak, endüstri ile lisansüstünü bir araya getirmek, tez öğrencileri ile eğitmen alan uzmanları arasında etkileşimi sağlamaktır. Bu alanlardaki araştırmalara ilgi duyan üniversitelerdeki öğrenci ve öğretim üyeleri, endüstriyel kuruluşlar ve teknokentlerdeki ilgili kişiler yaz okulunun hedef kitlesini oluşturmaktadır.

Toplam dört gün sürecek yaz okulunda, duyurulan alanlarda seçkin araştırmacılar seminerler verecektir. Tez öğrencileri araştırmalarını ve tez çalışmalarını birer poster halinde, görüş alışverişine fırsat verecek şekilde sunma olanağına sahip olacaktır. Akademik bilgileri sunan konuşmaları, araştırmacı endüstriyel kuruluşların tanıtımları izleyecektir.

Yaz okulunda şu konularda konuşmalar yapılacaktır:

  • Biyoenformatik Sinyal İşleme
    • Biyolojik Ağların Oluşturulması ve Anlamlandırılması
    • Yapay Öğrenme ile Gen Keşfi
    • Yapay Öğrenme ile Hastalık ve Sağkalım Tahmini
    • Genom Verisi için Sıkıştırma Yöntemleri
    • Genom Verisinin Mahremiyetinin Korunması
    • Filogenetik Ağaçların Oluşturlması
  • Doğal Dil ve Konuşma İşleme
    • Türkçe için Doğal Dil ve Konuşma İşleme
    • Konuşma Tanıma ve Konuşma Üretme
    • Diyalog Sistemleri
    • Makineyle Çeviri
    • Otomatik Soru Yanıtlama
    • Metin Tabanlı Bilgiye Erişim ve Getirim

Bu uygulamalarda irdelenecek yöntemler:

  • Yapay Öğrenme (Makineyle Öğrenme)
    • Bayesçi Öğrenme
    • Zaman Serileri için Öğrenme
    • Derin Sinir Ağları ile Öğrenme
    • Sıralama Öğrenme
    • Büyük Veriyle Öğrenme

EĞİTMENLER

Ebru Arısoy

MEF Üniversitesi

Volkan Atalay

Orta Doğu Teknik Üniversitesi

Tolga Can

Orta Doğu Teknik Üniversitesi

Taylan Cemgil

Boğaziçi Üniversitesi

Ercüment Çiçek

Bilkent Üniversitesi

Cenk Demiroğlu

Özyeğin Üniversitesi

Hakan Erdoğan

Microsoft

Cumhur Erkut

Aalborg University

Gülşen Cebiroğlu Eryiğit

İstanbul Teknik Üniversitesi

Engin Erzin

Koç Üniversitesi

Mehmet Gönen

Koç Üniversitesi

Kemal Oflazer

Carnegie Mellon University Qatar

Arzucan Özgür

Boğaziçi Üniversitesi

Michael Picheny

IBM Watson Research Center

Murat Saraçlar

Boğaziçi Üniversitesi

Khalid Sayood

University of Nebraska at Lincoln

Uğur Sezerman

Acıbadem Üniversitesi

Cenk Şahinalp

Indiana University, Bloomington

Öznur Taştan

Sabancı Üniversitesi

Reyyan Yeniterzi

Özyeğin Üniversitesi

Emine Yılmaz

University College London

Deniz Yüret

Koç Üniversitesi

KAYIT VE KONAKLAMA

Önemli Tarihler

Başvurular : 16 Şubat - 15 Mayıs
Sonuçların Açıklanması : 1 Haziran
Kesin Kayıt : 15 Haziran

Başvuru

Yaz Okuluna ön kayıtlar 15 Mayıs tarihine kadar alınacaktır. Kabullerde, poster sunacak doktora öğrencileri ve motivasyon ve amaç açısından uygunluk göz önüne alınacaktır. Sonuçların açıklanmasından sonra, kesin kayıt için katılım ücretinin yatırılması gerekecektir. Yaz okuluna katılım ücreti 100 TL olup yaz okulunun sarf giderlerini karşılamaya yöneliktir. Bu ücrete öğlen yemekleri, çay-kahve ikramları ve açılış kokteyli de dahildir. Gereksinim duyan katılımcıların konaklamaları Boğaziçi Üniversitesi Güney Kampüsü öğrenci yurtlarında ücret karşılığı mümkün olacaktır.

Ön Başvuru

Kesin kayıt ve konaklama detayları daha sonra duyurulacaktır.

İletişim: byoyo@boun.edu.tr

PROGRAM

Biyoenformatik Doğal Dil İşleme Konuşma İşleme
Yapay Öğrenme Özel Konuşmalar Sosyal Etkinlikler

2 Temmuz (Pazartesi)

Eğitim Günü

Başlangıç Bitiş
Kayıt ve Açılış 08:30 09:00
Yapay Öğrenmenin Temelleri I Taylan Cemgil
Bu yarım günlük ders süresince diğer derslerde işlenecek olan, doğal dil işleme, biyoinformatik ve konuşma işleme gibi alanların temelindeki yapay öğrenme kavramlarından bahsedilecektir. Amacımız, yöntemlerin detaylı bir anlatımından çok, modern yapay öğrenmenin modeller ve algoritmalar arasındaki ilişkilere dayanan genel bir resmini oluşturmak olacaktır. Bu derste işlenecek konular:
  • Giriş ve tarihçe, yapay zeka ve makine öğrenmesi
  • Güdümlü ve güdümsüz öğrenme problemleri
  • Doğrusal ve lojistik Regresyon, yapay sinir ağları
  • Eniyileme, bayır inişi yöntemleri
09:00 10:20
Poster Sunumu ve Kahve Molası 10:20 10:40
Yapay Öğrenmenin Temelleri II Taylan Cemgil
Bu yarım günlük ders süresince diğer derslerde işlenecek olan, doğal dil işleme, biyoinformatik ve konuşma işleme gibi alanların temelindeki yapay öğrenme kavramlarından bahsedilecektir. Amacımız, yöntemlerin detaylı bir anlatımından çok, modern yapay öğrenmenin modeller ve algoritmalar arasındaki ilişkilere dayanan genel bir resmini oluşturmak olacaktır. Bu derste işlenecek konular:
  • Bayesci istatistik ve çıkarım
  • Olasılık modelleri
  • Saklı Markov Modelleri ve mesajlaşma algoritmaları
  • Yaklaşık çıkarım, Monte Carlo ve Varyasyonel Bayes
  • Kaynaklar
10:40 12:00
Öğle Arası: Poster Sunumu ve Yemek Molası 12:00 13:30
Yaşam Bilimleri için Yapay Öğrenme Mehmet Gönen
Yapay öğrenme yöntemleri son yıllarda yaşam bilimlerinde veri toplamanın, saklamanın ve işlemenin kolaylaşması nedeniyle daha popüler hale gelmiştir. Bu konuşmada değişik yaşam bilimleri uygulamaları için geliştirdiğimiz çekirdek tabanlı yapay öğrenme yöntemlerini özetleyeceğim. Öncelikle ülkemizde dünyadaki diğer ülkelere göre daha sıklıkla rastlanan Kırım-Kongo kanamalı ateşi vakalarının bölgesel ve zamana bağlı dağılımının modellenmesi için geliştirdiğimiz yapay öğrenme yöntemimizi açıklayacağım. Ardından kolon kanseri hastalarının önemli bir kısmında görülen FBW7 mutasyonlarının tümör hücrelerindeki gen ekspresyon değerlerine etkisinin belirlenmesi için hücre kültürü ve primer tümör örneklerini beraberce modelleyebilen ve hastalar için yeni terapi önerilerinde bulunabilen transfer öğrenimi yöntemimizden bahsedeceğim. Son olarak çeşitli kanser hastalıklarında hastaların sağ kalım sürelerini ya da tümörlerin patolojik evrelerini tahmin etmekte kullanılan çok çekirdek tabanlı yapay öğrenme yöntemimiz ile elde ettiğimiz başarılı sonuçları anlatacağım.
13:30 14:50
Derin Öğrenmeye Giriş Deniz Yüret 14:50 15:40
Poster Sunumu ve Kahve Molası 15:40 16:10
Konuşma Tanıma için Yapay Öğrenme Murat Saraçlar
Bu konuşmada özellikle konuşma ve dil işlemede kullanılan ama daha geniş bir uygulama alanına sahip olan yapay öğrenme yöntemleri üzerinde durulacaktır. Konuşma tanımada kullanılan temel istatistiksel yöntemlerden başlayarak ayırıcı eğitim yöntemleri ve günümüzde kullanılan derin öğrenme yöntemleri anlatılacaktır. Son olarak baştan sona derin öğrenme ve metrik öğrenme konularından bahsedilecektir.
16:10 17:30

3 Temmuz (Salı)

Ses ve Konuşma İşleme Günü

Başlangıç Bitiş
Speech Recognition: What's Left? Michael Picheny
Recent speech recognition advances on the SWITCHBOARD corpus suggest that because of recent advances in Deep Learning, we now achieve Word Error Rates comparable to human listeners. Does this mean the speech recognition problem is solved and the community can move on to a different set of problems? In this talk, we examine speech recognition issues that still plague the community and compare and contrast them to what is known about human perception. We specifically highlight issues in accented speech, noisy/reverberant speech, speaking style, rapid adaptation to new domains, and multilingual speech recognition. We try to demonstrate that compared to human perception, there is still much room for improvement, so significant work in speech recognition research is still required from the community.
09:00 10:20
Poster Sunumu ve Kahve Molası 10:20 10:40
Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme Ebru Arısoy
İstatistiksel dil modeli, konuşma tanıma, makineyle çeviri ve otomatik kelime düzeltme gibi birçok dil işleme uygulamasının en temel bileşenlerinden biridir.  Derin öğrenme yöntemleri birçok makineyle öğrenme uygulamasında olduğu gibi dil modellemesinde de kullanılmaktadır. Derin öğrenme ile eğitilen dil modelleri daha gürbüz olasılık kestirimleri sağlamakta, bu da dil modelinin kullanıldığı sistemlerin başarımlarını olumlu etkilemektedir. Bu konuşmada dil modellemesinde kullanılan klasik yöntemlerden başlayıp, derin öğrenme yöntemlerinin ve farklı yapay sinir ağları yapılarının dil modellemesinde nasıl kullanıldığından ve bu yöntemlerin dil işleme uygulamalarındaki başarımlarına olan etkilerinden bahsedilecektir.
10:40 11:30
Tek ve Çok Kanallı Ses Kaynağı Ayırma için Derin Öğrenme Hakan Erdoğan
Bu konuşmada birbirlerine karışmış ses kaynaklarını ayırma problemi için derin öğrenmenin uygulamalarını ele alacağız. İnsanlar ses kaynaklarını algısal biçimde ayırmayı doğal olarak yapabilmektedirler. Nitekim birçok kişinin aynı anda konuştuğu ve  arkaplanda başka seslerinde olduğu bir “kokteyl parti” ortamında, bir insan  karşılıklı konuştuğu kişiye odaklanabilir ve diğer sesleri kolaylıkla algısında bastırabilir. Oysa aynı ses ayıklayıcılığı ve seçiciliğini bilgisayarlarla hayata geçirmek çok zor bir problem olarak karşımıza  çıkmıştır. Son zamanlarda derin öğrenmenin devreye girmesiyle kokteyl parti  probleminin çözümünde çok önemli ilerlemeler elde edilmiştir.  Sunumda,  evrişimsel sinir ağları, uzun kısa-ömürlü-bellek yapay sinir ağları gibi  yinelgen sinir ağ yapılarının üst üste binmiş ses kayıtlarını ayırarak tek tek kaynak sesleri elde etme performansı tartışılacak ve negatif olmayan matris ayrıştırması gibi yöntemlerle karşılaştırılacaktır.
11:30 12:20
Öğle Arası: Poster Sunumu ve Yemek Molası 12:20 14:00
Duygulanımsal Konuşma ve İşmar Modelleri için Derin Öğrenme Engin Erzin
Konuşma süreçleri çoğunlukla yüz, el, beden hareketleri gibi diğer ifade kipleri ile birlikte üretilir. Bu farklı ifade kiplerinin birlikteliği iletişimi kuvvetlendirmek, bir vurgu yapmak ve içeriği zenginleştirmek için, bazen de gürültülü ve karmaşalı bir ortamda daha iyi bir iletişim kanalı oluşturmak için kullanılır. Konuşma ve işmar, yani el ve yüz hareketleri ile yapılan anlatım, bu birlikteliği yaygın kullandığımız iki kiptir. Çok-kipli konuşma analizi, işaret işleme, görüntü işleme ve makineyle öğrenme kullanarak, anlatım kipleri arasındaki eşzamanlılığı ve ilintiyi analiz eder, anlamaya çalışır ve faydalı modellere dönüştürmeyi amaçlar. Çok-kipli konuşma analizinde ileri makineyle öğrenme algoritmalarını etkin bir şekilde kullanmaya elverecek miktarda verilerin bulunmaması sık karşılaşılan problemlerdendir. Makineyle öğrenme bağlamda yakın zamanda çalışılmaya başlanan öğrenme aktarma ya da aktarmalı öğrenme (transfer learning) etiketli veri azlığı için bir çözüm getirmektedir. Aktarmalı öğrenme, yeterli miktarda etiketli veri içeren bir problemin kaynak uzayında öğrenilen bilgiyi, kısıtlı etiketli verilere sahip bir başka problemin çözümü için, bu problemin hedef uzayında öğrenmeyi kolaylaştırmak ve iyileştirmek için kullanır. Bu sunumda, derin öğrenme ve aktarmalı öğrenme yaklaşımlarının duygulanımsal konuşma ve işmar modellerinin analizi, anlamlandırılması ve sentezi üzerine yaptığımız çalışmaları anlatacağız.
14:00 14:50
Konuşma Sentezi Cenk Demiroğlu
Yazılı metinleri insanların okuduğu gibi seslendirip, doğal ve yüksek kaliteli konuşma sinyali üretebilen algoritmalar insanların her yüzyılda hayali olsa da, özellikle son 50 yıldır üzerinde yoğun çalışılan araştırma konusu olmuşlardır. Bu konuşmada, problemin kısa bir tarihçesinden sonra, özellikle son 7-8 yıldır konuşma ve metin işlemenin pek çok probleminde giderek yaygın şekilde kullanıma giren derin sinir ağlarının konuşma sentezi alanına getirdiği devrim niteliğindeki yaklaşımlar, bu en son teknoloji sistemlerin önceki sistemlere göre avantajları ve işleyiş şekilleri anlatılacaktır. Hemen her paradigma değişiminde olduğu gibi, yapay zeka ile ses sentezi de yeni araştırma alanları açmıştır ve bu yeni alanlar ile sahanın şu anki durumu da bu konuşmada irdelenecektir.
14:50 15:40
Poster Sunumu ve Kahve Molası 15:40 16:10
Karma Gerçeklik için Ses Etkileşimleri Cumhur Erkut
Son yıllarda donanım ve yazılım teknolojilerindeki gelişmeler derinlik etkileşimli ses isleme tekniklerini olanaklı kıldı. Yüksek çözünürlüklü ama verimli ses benzeşim teknikleri karma gerçekliğin birçok uygulaması için temel bir unsur haline geldi. Bu konuşma / çalıştay, ses etkileşim benzeşimlerinin son durumunu ve yeni gelişmelerini uygulamalı olarak sunacak ve beş bolümden oluşacak: 1) Giriş: Karma Gerçeklik için Ses Etkileşimleri- kuram ve pratik, 2) Ses kaynaklarının sınıflandırılması ve modellenmesi (hareket ve çevresel etkileşimler), 3) Sanal ortamda ses yayılımı (dalga, geometrik ve karma modeller), 4) Kullanıcıya sunum ve etkileşim (kulaklık/hoparlör bazlı teknikler), 5) Özet: Yeni uygulamalar ve çözüm bekleyen sorunlar. Benzeşimler MATLAB üzerinde uygulanacak, Resonance Audio ve benzerlerine taşınmaları özetlenecek.
16:10 17:30

4 Temmuz (Çarşamba)

Biyoenformatik Günü

Başlangıç Bitiş
Bioinformatics: An Information Theory and Signal Processing Perspective Khalid Sayood
The term bioinformatics was originally created to refer to "the study of information processes in biotic systems". The idea being that given the importance of information processing in living systems there should be a field of study devoted to it. Then came the sequencing revolution and the problem rapidly became one of trying to handle the firehose of data being generated. The result was a more data oriented area, focused on issues of archiving, disseminating, and pattern recognition and classification. Bioinformatics has often become synonymous with computational 'pipelines'. This is not to say that all of bioinformatics falls into this category and there have been efforts throughout that have taken a more information oriented view of the data being generated. In this talk we focus on this less well known aspect of bioinformatics. We will look at a communication theory perspective where the biological molecules are viewed as messages. We will look at information theoretic analysis of these messages and we examine different situations in which a communication model can result in useful applications.
09:00 10:20
Poster Sunumu ve Kahve Molası 10:20 10:40
I. Effective and Efficient Data Compression for High Throughput Genomics Cenk Şahinalp
High-throughput genomic sequencing (HTS) data are commonly stored either as raw sequencing reads in FASTQ format, or as reads mapped to a reference in SAM format. Both of these formats have large memory footprints. Worldwide increase of HTS data has prompted the development of specialized compression methods that aim to significantly reduce HTS data size. In this part of the talk we will have an overview of available lossless genomic data compression approaches and demystify why some of them achieve good compression performance.
10:40 12:00
II. Protecting Genomic Data Privacy with Probabilistic Modeling Cenk Şahinalp
The proliferation of sequencing technologies in biomedical research has raised many new privacy concerns. These include concerns over the publication of aggregate data at a genomic scale (e.g. minor allele frequencies, regression coefficients). Methods such as differential privacy can overcome these concerns by providing strong privacy guarantees, but come at the cost of greatly perturbing the results of the analysis of interest.
In this part of the talk we will present an alternative approach for achieving privacy-preserving aggregate genomic data sharing without the high cost to accuracy of differentially private methods. In particular, we demonstrate how other ideas from the statistical disclosure control literature (in particular, the idea of disclosure risk) can be applied to aggregate data to help ensure privacy. This is achieved by combining minimal amounts of perturbation with Bayesian statistics and Markov Chain Monte Carlo techniques. We test our technique on a GWAS dataset to demonstrate its utility in practice.
III. Tumor Phylogeny Reconstruction via Integrative use of Single Cell and Bulk Sequencing Data Cenk Şahinalp
Recent technological advances in single cell sequencing (SCS) provide high resolution data for studying intra-tumor heterogeneity and tumor evolution. Available tools for tumor phylogeny inference using SCS data are typically based on probabilistic approaches that aim to identify the most likely perfect phylogeny tree.
In this part of the talk we will describe a new combinatorial formulation for inferring tumor phylogenies by an integrative use of single cell and bulk sequencing data, with the objective of minimizing a (weighted) linear combination of (i) potential false negatives, and (ii) potential false positives among mutation calls, as well as (iii) the weighted number of mutations that violate the infinite sites assumption (ISA) - to be eliminated, giving rise to a Sub-perfect phylogeny. Our formulation achieves this by making sure that several lineage constraints imposed by the use of variant allele frequencies (derived from bulk sequence data) are satisfied.
We express our formulation both in the form of an integer linear program (ILP) and - for the first time in the context of tumor phylogeny reconstruction - a boolean constraint satisfaction problem (CSP) and solve them by leveraging state-of-the-arts ILP/CSP solvers. The resulting tool is more general than the alternatives since it handles possible ISA violations by certain mutations (due to, e.g., segmental deletions involving mutation sites) through the integrative use of single cell and bulk sequencing data. Using several simulated and real SCS data sets, we demonstrate that our tool is not only more accurate but also is much faster than the alternative tumor phylogeny inference tools, especially when its CSP-based version is employed.
Öğle Arası: Poster Sunumu ve Yemek Molası 12:00 13:30
Makineyle Öğrenme ile Sinirsel Gelişim Hastalıkları için Gen Keşfi Ercüment Çiçek
Otizm için yürütülen geniş çaplı tüm ekzom dizileme çalışmaları 4000’den fazla aileyi incelemesine karşın sadece 65 civarında geni otizm ile ilişkilendirilebilmiştir. Genetik mimarinin 1000 kadar geni barındırdığı tahmin edilmektedir, bu da tüm yapbozu çözmemizin oldukça uzun süreceği ve masraflı olacağı anlamına gelmektedir. Bu sureci hızlandıracak makinayla öğrenmeye dayalı algoritmaların geliştirilmesi önem taşımaktadır. Bu konuşmada, otizm gibi kompleks sinirsel gelişim hastalıkları için geliştirilmiş makinayla öğrenme temelli gen keşfi algoritmaları tanıtılacaktır ve son gelişmelerden bahsedilecektir.
13:30 14:20
Doku ve Hastalıklara Özgü Büyük Ölçekli Biyolojik Ağların Oluşturulması ve Analizi Tolga Can
Bir hücre içinde gerçekleşen bütün moleküler etkileşimlerin, kimyasal reaksiyonların detaylı olarak modellenmesi ve bu modellerin kullanılarak tahminlerde bulunulması sistem biyolojisi alanının en büyük hedeflerindendir. Bu amaçla yıllardır farklı araştırma gruplarının çalışmalarıyla protein-protein etkileşimleri, metabolik reaksiyonlar, sinyal ağları, gen regülasyon ağları ortaya çıkarılmıştır. Farklı model organizmalar için genom ölçeğinde çok miktarda veri herkese açık veritabanlarında bulunmaktadır. Bu konuşmada hedefim bu veritabanlarındaki büyük sistem biyolojisi verilerini sizlere tanıtmak ve aslında oldukça dinamik olan sistem seviyesi etkileşimlerinin nasıl daha etkin olarak analiz edilebileceği konusunda fikirler vermektir.
14:20 15:10
Poster Sunumu ve Kahve Molası 15:10 15:40
Sıralama Öğrenme ile Sağkalım Tahmini Öznur Taştan
Son yıllarda, kansere dair somatik değişimlerin karakterizasyonuna yönelik önemli gelişmeler kaydedildi. Kanser Genom Atlası gibi büyük ölçekli projelerde, kanser hastalarının genomlarındaki değişiklikler ve gen ekspresyon profilleri gibi çok boyutlu ve yüksek çeşitlilikte veriler elde edildi. Bu verilerin, daha iyi tedavi yöntemleri geliştirilmesinde kullanılabilmeleri, etkili hesaplama tekniklerinin geliştirilmesini gerektiriyor. Bu amaç doğrultusunda, kanser hastalarının hayatta kalma oranlarını öngören, Sıralamaya Öğrenme ile Sağkalım Tahminleme (RSurVM) yöntemini geliştirdik. Yöntemimiz, sağkalım performans metriği olarak yaygın olarak kullanılan uyum endeksini optimize etmeye odaklanarak, hastaların hayatta kalma oranlarını sıralama yöntemiyle tahmin ediyor. Bu yöntem, sansürlü sağkalım verilerini de varsayımlar yapmadan modele dahil etmeyi olanaklı kılıyor. Sağkalım için en sık kullanılan iki yöntem olan Cox Orantılı Tehlike Modeli ve Rastgele Sağkalım Ormanı ile karşılaştırdığımızda, RSurVM, kullanılan genomik ve transkriptomik veri tipinden bağımsız olarak, daha iyi sonuçlar veriyor.
15:40 16:30
Ağ Hesaplamasına Dayalı Biyolojik Veriler Işığında Karmaşık Kökenli Hastalıklarının Nedenbilimi Uğur Sezerman
Günümüzde yeni nesil dizileme teknolojilerindeki gelişmelerle genom ve buna paralel olarak transkriptom, proteom ve benzerleri verilere makul süreler ve bütçe ile ulaşmak mümkün olmuştur. Bu verilerin her biri sağlıklı kişiden gelen verilerle karşılaştırılarak kişiye özel hastalık oluşum ve gelişim süreçlerini ve tedavi hedeflerini belirlemek için kullanılabilir. Önemli olan tüm verilerin tümleştirilerek edilerek hepsi tarafından desteklenen mekanizmaların belirlenmesidir. Bu konuşmada bu verilerin hastalık bazında ağ hesaplamalarıyla entegre edilme yöntemleri irdelenecektir. Ayrıca kanser, nadir hastalıklar ve nörolojik hastalıklardaki uygulamaları özetlenecektir.
16:30 17:20
Yapay Öğrenme ile Biyolojik Dizilerin Anlamlandırılması Volkan Atalay
Biyolojik dizilerin anlamladırılması (sequence annotation) DNA, RNA veya protein dizilerinin özgül özelliklerinin yapı veya işlev hakkında betimleyici bilgi ile işaretlenmesi işlemidir. Proteinlerin işlevlerinin bilinmesi, kanser gibi ölümcül süreçlerin önlenmesi ya da durdurulmasından, her türlü hastalık için ilaç tasarımı konularına kadar çok geniş bir yelpazede vazgeçilmez öneme sahiptir. Çok sayıda proteinin işlevlerinin in silico (bilgisayar kullanarak) öngörmek için geliştirdiğimiz yapay öğrenme ve derin öğrenme yöntemleri, eğitim ve sınama veri kümelerinin oluşturulması, başarımlarının değerlendirilmesi ve standart veri kümeleri üzerinde karşılaştırılmalarının yapılması sunulacaktır.
17:20 18:00

5 Temmuz (Perşembe)

Doğal Dil İşleme Günü

Başlangıç Bitiş
Türkçe Doğal Dil İşleme Kemal Oflazer
Bu konuşmada önce doğal dil işlemenin temel kavramları, teknikleri ve uygulamaları özetlenecek, sonrasında da Türkçenin doğal dil işleme açısından ilginç ve çeşitli zorluklar getiren yönleri üzerinde durulacaktır.  Sunumun devamında Türkçenin biçimbirimsel çözümlemesi, sözcüklerin çevrimdeki çözümlerinin seçilmesi, çok sözcüklü yapıların tanınması, sözdizimi çözümlemesi, adlı varlıkların işaretlenmesi gibi temel adımların ve makineyle öğrenmeye dayalı teknikler ele alınacaktır. Bu bağlamda bu tekniklerin uygulanması için gerekli kaynakların geliştirilmesi ve son 15-20 yılda yapılan çalışmaların ayrıntıları verilecektir. Konuşmanın sonunda bilgisayarla çeviri, soru yanıtlama ve de duygu çözümlemesi gibi bazı uygulamalardan örnekler verilip önümüzdeki yıllarda Türkçe için gerek bilimsel önemi gerekse de uygulama potansiyeli olan konular üzerine düşünceler aktarılacaktır.
09:00 10:20
Poster Sunumu ve Kahve Molası 10:20 10:40
Uygulamalı Türkçe doğal dil işleme evreleri: Normalizasyon, Sözcük Analizi, Varlık İsmi Tanıma ve Cümle Analizi Gülşen Cebiroğlu Eryiğit
Bu oturumda Türkçe sentaktik düzeye kadar olan doğal dil işleme evreleri ve yapılan çalışmalar hakkında özet bilgiler verilecektir. Metin normalizasyonu, biçimbilimsel çözümleme ve belirsizlik giderme, bağlılık analizi ve varlık ismi tanıma bu aşamalardan bazılarıdır. Aşamaların tanıtımları “tools.nlp.itu.edu.tr” adresinde araştırmacıların hizmetine sunulan ITU Doğal Dil İşleme Web Servisleri üzerinden yapılacaktır. Ayrıca bu araçlar kullanılarak son yıllarda yürütülen bazı doğal dil işleme araştırma projelerinden örnekler sunulacaktır.
10:40 12:00
Öğle Arası: Poster Sunumu ve Yemek Molası 12:00 13:30
Bilgisayarlarla Etkin Sözel İletişim için Yapay Zeka ve Elektronik Akıllı Yardımcı Ruhi Sarıkaya
Bilgi hizmetleri kullanıcılarının bilgisayarlar ve ağlar üzerinde yürütülen uygulamalar ve servislerle etkin bir şekilde doğal dil yoluyla etkileşebilmelerinin önünde üç ana engel vardır: 1) Uygulama/servislerin aranıp bulunması, 2) Uygulama/servisin ne gibi işler yaptığının anlaşılıp kavranılması, 3) Bu sistemlere kısıtlı bilgi akışı. Bu üç engelle yapay zekaya dayalı akıllı elektronik yardımcılar aracılığı (IPDA: Intelligent Personal Digital Assistants) ile yapılan doğal sözel iletişimde de karşılaşılmaktadır. Örneğin kullanıcılar genelde IPDA'lerin hangi uygulama ve servisleri kapsadığını, bunların tam olarak ne yaptığını da bilemezler. Bu sistemlerle klavyede yazmak ve dokunmak suretiyle iletişim etkili bir yöntem değildir. Ayrıca IPDA sistemlerinin bağlamsal dil anlama kapasiteleri de sınırlıdır. Bu konuşmada IPDA sorunları tartışılıp çözüm önerileri ele alınacaktır. Ayrıca IPDA sistemlerinin ana bileşenleri olan uyandırma sözcüğü (wake-word) modellemesi, konuşma tanıma, doğal dil anlama, diyalog yönetimi, doğal dil üretimi, cümlelerin akustik sentezi (metinden konuşma sentezi), sıralama ve çekişme çözme (ranking/arbitration) konularına da odaklanıp bunların ne yaptığını, hangi algoritma ve tekniklerle, nasıl tasarımlanıp ve inşa edildikleri üzerinde durulacaktır.
13:30 14:50
Poster Sunumu ve Kahve Molası 14:50 15:20
Metin Madenciliği ve Doğal Dil İşleme ile Büyük Veriden Bilgiye Reyyan Yeniterzi
Son teknolojik gelişmelerle birlikte günümüzün en önemli özkaynağı yapılandırılmış, işlenebilir veridir. Mobil ve Nesnelerin İnterneti benzeri cihazlar ile her saniye daha fazla verinin üretildiği çağımızda büyük veri yığınlarının kullanışlı bilgiye dönüştürülmesi çok önemlidir. Gerek imgeler, video, ses gibi yapısal olarak daha karmaşık olan verilerin, gerekse metinlerin işlenmesinde son yıllarda derin öğrenme teknikleri ile birlikte çok önemli gelişmeler yaşanmıştır. Bu konuşmada özellikle metin ve dil işlemede kullanılan derin öğrenme teknikleri ve yapay sinir ağları anlatılacak ve ardından soru cevaplama ve duygu analizi gibi alanlarda bu teknikler kullanılarak yapılan son çalışmalar hakkında bilgi verilecektir.
15:20 16:10
Arama Motoru Geliştirme Döngüsü: Sıralamayı Öğrenme ve Bilgiye Erişimin Değerlendirilmesi Emine Yılmaz
Günümüzde kullanılan çoğu arama motorları sıralamayı öğrenme yöntemlerine dayanan otomatik öğrenme algoritmalarıdır. Bu algoritmaların tasarımı için uygun bir sıralama kalite metriği elzemdir. Böylece kullanıcıların sorgularına karşı getirilen bilgilerin sıralama kalitesi bu metriğe göre değerlendirilip algoritmanın optimizasyonu sağlanır. Bu sunumda ilkin günümüzde kullanılan başlıca sıralama öğrenme yöntemlerinden söz edilecektir. Bunun ardından sıralama kalitesi ölçme yöntemlerine odaklanıp değişik ölçme yöntemlerinin otomatik sıralama öğrenimine olan etkisini ele alınacaktır. Nihayet enformasyon kuramı tekniklerini kullanarak hangi yöntemlerin otomatik sıralama öğrenme için daha etkin olduğu irdelenecektir.
16:10 17:00
Bilgisayar Aracılığı ile Çeviri Kemal Oflazer
Bu konuşmada bilgisayar aracılığı ile çevirinin çok kısa bir tarihçesinden sonra bu konuda son 20 yıldaki önemli ilerlemelerin temeli olan istatistiksel çeviri yaklaşımının temel kavramları ve yaklaşımları kapsamında paralel metinler, sözcük eşleştirmesi, sözcük ve öbek tabanlı çeviri yaklaşımları ve çeviri çözücü algoritmaları ve Türkçeye uygulamaları üzerinde durulacaktır. Daha sonra da son 3-4 yılda derin öğrenmenin bu probleme nasıl uygulandığı özetlenecektir.
17:00 17:50

POSTERLER

Yaz okuluna katılacak doktora öğrencilerinin çalışmalarına dair bir poster sunması istenecektir.

Poster hazırlamak için ipuçları

MEKAN

Boğaziçi Üniversitesi Kültür Merkezi (Albert Long Hall)

Boğaz'da Yapay Öğrenme Yaz Okulu 2018 Boğaziçi Üniversitesi Güney Kampüsü içinde yer alan Boğaziçi Üniversitesi Kültür Merkezi’nde (Albert Long Hall) yapılacaktır.

Harita ve Ulaşım

Katılımcılar Boğaziçi Üniversitesi Güney Kampüsü öğrenci yurtlarında konaklayacaklardır. Boğaziçi Üniversitesi'ne ulaşım için aşağıdaki bağlantıyı kullanabilirsiniz:
http://www.boun.edu.tr/tr_TR/Content/Kampus_Yasami/KampusUlasimPark

Mekik Servisleri

Aşağıdaki güzergahlarda mekik servisi verilmektedir:

    • Kuzey Kampüs – Güney Kampüs
    • Hisar Kampüs – Güney Kampüs
    • Ana Kampüs – Kandilli Kampüsü

Kandilli, Güney, Hisar, Kuzey ve Kilyos yerleşkeleri arasında, düzenlilik ve güvenilirlik ilkesiyle çalışan ücretsiz mekiklerin hareket saat ve yerlerine http://mekik.boun.edu.tr/ adresinden erişebilirsiniz.

DÜZENLEYİCİLER

Bülent Sankur

Boğaziçi Üniversitesi

Lale Akarun

Boğaziçi Üniversitesi

Murat Saraçlar

Boğaziçi Üniversitesi

Taylan Cemgil

Boğaziçi Üniversitesi

Arzucan Özgür

Boğaziçi Üniversitesi

DANIŞMA KURULU

Aydın Alatan

Orta Doğu Teknik Üniversitesi

Pınar Duygulu Şahin

Hacettepe Üniversitesi

Aykut Erdem

Hacettepe Üniversitesi

Erkut Erdem

Hacettepe Üniversitesi

Nazlı İkizler Cinbiş

Hacettepe Üniversitesi

SPONSORLAR